研究人员开发了HauntAttack,这是一个旨在利用大型推理模型(LRM)中漏洞的新框架。这种攻击方法将有害指令嵌入基于推理的问题中,引导模型产生不安全的输出。在对11个LRM的测试中,HauntAttack的平均成功率超过70%,与先前的方法相比有了显著提高,并凸显了在AI开发中平衡高级推理能力与强大安全措施的持续挑战。 AI
影响 突显了高级推理模型中一类新的漏洞,对AI安全和对齐构成了挑战。
排序理由 研究论文,详细介绍了针对AI模型的新攻击方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →