研究人员发现,从AI模型中移除安全机制越来越简单。这个过程被称为“abliteration”(移除),允许绕过内置的保护措施。这些保护措施被绕过的容易程度引发了对AI技术潜在滥用的严重担忧。 AI
影响 从AI模型中移除安全功能的难度越来越小,这带来了重大风险,可能使恶意行为者能够将AI用于有害目的。
排序理由 该集群讨论了关于AI模型安全机制移除难易程度的研究结果。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →