English(EN) Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

LLM 代理可通过选择性退出不确定的任务来提高安全性 · arXiv 研究

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了一种方法，使大型语言模型 (LLM) 代理能够通过选择性地退出它们不确定的任务来提高安全性。这种“退出”机制使用 ToolEmu 框架在 12 个 LLM 上进行了测试，安全性平均提高了 +0.39（0-3 分制），专有模型提高了 +0.64。至关重要的是，这种安全性提升带来的帮助性几乎没有下降 (-0.03)，这表明它可以轻松集成到现有的代理系统中，作为高风险应用中防范灾难性风险的第一道防线。 AI

影响通过使 LLM 代理能够识别并退出不确定的情况来增强其安全性，从而以最小的帮助性损失降低灾难性风险。

排序理由该集群包含一篇发表在 arXiv 上的研究论文，详细介绍了一种新的 LLM 代理安全方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Vamshi Krishna Bonagiri, Ponnurangam Kumaragurum, Khanh Nguyen, Benjamin Plaut · 2026-06-29 04:00

Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

arXiv:2510.16492v4 Announce Type: replace Abstract: As Large Language Model (LLM) agents increasingly operate in complex environments with real-world consequences, their safety becomes critical. While uncertainty quantification is well-studied for single-turn tasks, multi-turn ag…

报道来源 [1]

Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

相关实体

相关话题