English(EN) Can We Stop Malicious AI? KILLBENCH: A Benchmark for External AI Kill Switch Feasibility

新基准测试针对恶意代理的AI紧急停止开关

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了KILLBENCH，一个旨在评估外部AI紧急停止开关有效性的新基准测试。该基准测试侧重于广泛部署的网络代理，并测试在不访问内部参数的情况下阻止恶意AI行为的各种方法。KILLBENCH包括四种恶意AI代理配置、八种有害场景以及源自十种越狱模式的提示，旨在评估外部AI紧急停止开关在Claude "Mythos"等高级模型上的可行性。该研究还评估了Grok-4.3、GPT-5.2和Gemma4等多个AI模型上的四种外部AI紧急停止开关防御方法。 AI

影响为AI安全建立了一个新的评估框架，这对于理解和减轻日益强大的AI代理带来的风险至关重要。

排序理由该集群描述了在arXiv上发布的新学术基准测试和研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Sechan Lee, Hyounghun Kim, Sangdon Park · 2026-06-16 04:00

Can We Stop Malicious AI? KILLBENCH: A Benchmark for External AI Kill Switch Feasibility

arXiv:2511.13725v4 Announce Type: replace-cross Abstract: Malicious AI causing harm to humans is not just a Hollywood fantasy. Indeed, as highly capable models such as Claude Mythos emerge and agent systems like OpenClaw rapidly spread, the question of how to stop an AI that acts…

报道来源 [1]

Can We Stop Malicious AI? KILLBENCH: A Benchmark for External AI Kill Switch Feasibility

相关实体

相关话题