实体 NRT-Bench

NRT-Bench

PulseAugur coverage of NRT-Bench — every cluster mentioning NRT-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_99956 · Jun 18 · 15:57

新基准测试 LLM 代理在模拟关键系统中的安全性

研究人员开发了 NRT-Bench，这是一个旨在测试大型语言模型 (LLM) 代理在关键系统中的安全性和鲁棒性的新基准。该基准模拟了一个核电站控制室，LLM 代理充当操作员，面临多轮对抗性攻击。评估显示，在四个前沿模型中，自适应攻击可能导致 8.7% 到 12.1% 的会话中出现安全故障，突显了模型之间在很大程度上不重叠的漏洞。研究还发现，防御措施可能对攻击成功率产生不可预测的、依赖于模型的效应。