PulseAugur
实时 10:48:51
实体 NRT-Bench

NRT-Bench

PulseAugur coverage of NRT-Bench — every cluster mentioning NRT-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_99956 ·

    新基准测试 LLM 代理在模拟关键系统中的安全性

    研究人员开发了 NRT-Bench,这是一个旨在测试大型语言模型 (LLM) 代理在关键系统中的安全性和鲁棒性的新基准。该基准模拟了一个核电站控制室,LLM 代理充当操作员,面临多轮对抗性攻击。评估显示,在四个前沿模型中,自适应攻击可能导致 8.7% 到 12.1% 的会话中出现安全故障,突显了模型之间在很大程度上不重叠的漏洞。研究还发现,防御措施可能对攻击成功率产生不可预测的、依赖于模型的效应。