English(EN) Talk is (Not) Cheap: A Taxonomy and Benchmark Coverage Audit for LLM Attacks

LLM攻击基准覆盖率不到威胁全景的25%

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员开发了一个新的框架来审计旨在测试大型语言模型（LLM）攻击的基准的覆盖范围。该框架基于对500多种推理时攻击的分类法，显示当前领先的基准覆盖的潜在威胁全景不到25%。值得注意的是，服务中断和模型内部等类别缺乏标准化评估，尽管在这些领域已有记录在案的成功攻击。 AI

影响突出了LLM安全评估中的重大差距，可能指导未来的基准开发和红队演练工作。

排序理由学术论文，介绍了一种新的LLM安全基准分类法和审计框架。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Karthik Raghu Iyer, Yazdan Jamshidi, Nicholas Bray, Alexey A. Shvets · 2026-06-04 04:00

言论（并非）廉价：LLM攻击的分类法和基准覆盖审计

arXiv:2605.15118v2 Announce Type: replace-cross Abstract: We introduce a reusable framework for auditing whether LLM attack benchmarks collectively cover the threat surface: a 4$\times$6 Target $\times$ Technique matrix grounded in STRIDE, constructed from a 507-leaf taxonomy -- …