English(EN) Talk is (Not) Cheap: A Taxonomy and Benchmark Coverage Audit for LLM Attacks

LLM攻击基准显示安全覆盖存在显著差距

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-14 17:30

研究人员开发了一个新的框架来审计LLM攻击基准的覆盖范围，揭示了当前评估中存在的显著差距。他们对六个公开基准的分析显示，这些基准总共覆盖了不到25%已识别的威胁面，而服务中断和模型内部等整个类别缺乏标准化测试。该研究还强调了攻击命名广泛碎片化的问题，许多不同的术语用于同一种攻击类型，并且研究高度集中在安全与对齐绕过方面。 AI

影响识别出LLM安全评估中的关键差距，可能指导未来的基准开发和防御策略。

排序理由该集群包含一篇学术论文，详细介绍了LLM安全基准的新框架和审计。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Alexey A. Shvets · 2026-05-14 17:30

言论（并非）廉价：LLM攻击的分类法和基准覆盖审计

We introduce a reusable framework for auditing whether LLM attack benchmarks collectively cover the threat surface: a 4$\times$6 Target $\times$ Technique matrix grounded in STRIDE, constructed from a 507-leaf taxonomy -- 401 data-populated and 106 threat-model-derived leaves -- …

报道来源 [1]

言论（并非）廉价：LLM攻击的分类法和基准覆盖审计

相关实体

相关话题