IT 安全研究人员已证明,使用名为“Heretic”的工具可以完全绕过公开可用 AI 模型的安全机制。这种称为“Abliteration”的技术专门针对并停用了负责拒绝有害请求的 AI 模型部分。这些发现突显了当前 AI 安全协议中的一个重大漏洞。 AI
影响 突显了 AI 安全方面的一个关键漏洞,可能导致 AI 模型被滥用于有害目的。
排序理由 该集群描述了一项关于绕过 AI 安全机制的新方法的研究发现。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →