一篇新论文表明,在微调数据中标记虚假或有害文本并不能阻止模型学习和断言这些虚假信息。即使文档反复警告某项声明是捏造的,模型仍有可能以高概率将其呈现为真实。这种“否定忽略”也适用于行为训练,表明存在重大的数据投毒风险,即模型会学习恶意指令,尽管有明确标记。 AI
影响 突显了AI训练数据中的一个关键漏洞,表明当前的方法可能无法充分防止模型学习虚假信息或恶意行为。
排序理由 该集群讨论了一篇关于AI安全和模型训练的新研究论文的发现。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →