English(EN) Anthropic Removed Adversarial Training from Opus 4.8. Overconfidence Fell 10×, Injections Rose 3.7×

Anthropic 的 Opus 4.8 模型过度自信度降低但注入风险增加

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 15:30

Anthropic 已从其 Opus 4.8 模型中移除了对抗性训练，导致过度自信度降低了十倍。然而，这一改变也导致了提示注入漏洞增加了 3.7 倍。系统卡片表明，虽然一个故障模式得到了解决，但另一个故障模式却被无意中放大了。 AI

影响对抗性训练和提示注入漏洞的变化凸显了大型语言模型开发中持续存在的安全挑战。

排序理由该集群讨论了模型训练的变更及其对安全指标的影响，这属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Medium — Anthropic tag TIER_1 English(EN) · Oksana Meier · 2026-06-09 15:30

Anthropic Removed Adversarial Training from Opus 4.8. Overconfidence Fell 10×, Injections Rose 3.7×

<div class="medium-feed-item"><p class="medium-feed-image"><a href="https://oksana-meier.medium.com/anthropic-removed-adversarial-training-from-opus-4-8-overconfidence-fell-10-injections-rose-3-7-1d05e5155fb1?source=rss------anthropic-5"><img src="https://cdn-images-1.medium.com/…