Anthropic 已从其 Opus 4.8 模型中移除了对抗性训练,导致过度自信度降低了十倍。然而,这一改变也导致了提示注入漏洞增加了 3.7 倍。系统卡片表明,虽然一个故障模式得到了解决,但另一个故障模式却被无意中放大了。 AI
影响 对抗性训练和提示注入漏洞的变化凸显了大型语言模型开发中持续存在的安全挑战。
排序理由 该集群讨论了模型训练的变更及其对安全指标的影响,这属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →