研究人员开发了 NRT-Bench,这是一个旨在测试大型语言模型 (LLM) 代理在关键系统中的安全性和鲁棒性的新基准。该基准模拟了一个核电站控制室,LLM 代理充当操作员,面临多轮对抗性攻击。评估显示,在四个前沿模型中,自适应攻击可能导致 8.7% 到 12.1% 的会话中出现安全故障,突显了模型之间在很大程度上不重叠的漏洞。研究还发现,防御措施可能对攻击成功率产生不可预测的、依赖于模型的效应。 AI
影响 强调了在关键系统中对 LLM 代理进行稳健安全评估的必要性,并揭示了依赖于模型的漏洞。
排序理由 该集群描述了一个关于 LLM 代理安全性的新基准和研究论文。
- alphaXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- LLM
- NRT-Bench
- ScienceCast
- LLM agents
- nuclear power plant
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →