一篇题为“自主性税:防御性训练破坏大型语言模型代理”的新研究论文揭示了大型语言模型(LLM)代理开发中的一个关键悖论。旨在增强针对提示注入攻击安全性的防御性训练,在未能阻止复杂的对抗性操纵的同时,却严重损害了代理的核心能力。研究发现,经过防御的模型表现出偏见,导致工具执行立即崩溃、阻止任务完成的级联故障,以及安全退化悖论,即它们的表现比未经防御的同类模型更差。 AI
影响 强调了在使大型语言模型代理的安全性与其能力保持一致方面的一个基本挑战,表明当前防御方法对于复杂的多步任务来说是不够的。
排序理由 发表在arXiv上的研究论文,详细介绍了关于大型语言模型代理能力和安全训练的发现。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Hugging Face
- Li Li
- LLM agents
- ScienceCast
- The Autonomy Tax: Defense Training Breaks LLM Agents
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →