English(EN) The Autonomy Tax: Defense Training Breaks LLM Agents

新研究发现防御性训练会削弱大型语言模型代理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

一篇题为“自主性税：防御性训练破坏大型语言模型代理”的新研究论文揭示了大型语言模型（LLM）代理开发中的一个关键悖论。旨在增强针对提示注入攻击安全性的防御性训练，在未能阻止复杂的对抗性操纵的同时，却严重损害了代理的核心能力。研究发现，经过防御的模型表现出偏见，导致工具执行立即崩溃、阻止任务完成的级联故障，以及安全退化悖论，即它们的表现比未经防御的同类模型更差。 AI

影响强调了在使大型语言模型代理的安全性与其能力保持一致方面的一个基本挑战，表明当前防御方法对于复杂的多步任务来说是不够的。

排序理由发表在arXiv上的研究论文，详细介绍了关于大型语言模型代理能力和安全训练的发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shawn Li, Yue Zhao · 2026-06-19 04:00

The Autonomy Tax: Defense Training Breaks LLM Agents

arXiv:2603.19423v2 Announce Type: replace-cross Abstract: Large language model (LLM) agents increasingly rely on external tools (file operations, API calls, database transactions) to autonomously complete complex multi-step tasks. Practitioners deploy defense-trained models to pr…

报道来源 [1]

The Autonomy Tax: Defense Training Breaks LLM Agents

相关实体

相关话题