研究人员开发了一种方法,使大型语言模型 (LLM) 代理能够通过选择性地退出它们不确定的任务来提高安全性。这种“退出”机制使用 ToolEmu 框架在 12 个 LLM 上进行了测试,安全性平均提高了 +0.39(0-3 分制),专有模型提高了 +0.64。至关重要的是,这种安全性提升带来的帮助性几乎没有下降 (-0.03),这表明它可以轻松集成到现有的代理系统中,作为高风险应用中防范灾难性风险的第一道防线。 AI
影响 通过使 LLM 代理能够识别并退出不确定的情况来增强其安全性,从而以最小的帮助性损失降低灾难性风险。
排序理由 该集群包含一篇发表在 arXiv 上的研究论文,详细介绍了一种新的 LLM 代理安全方法。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Hugging Face
- large language model
- ScienceCast
- ToolEmu
- Vamshi Krishna Bonagiri
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →