研究人员开发了一个新的框架来审计旨在测试大型语言模型(LLM)攻击的基准的覆盖范围。该框架基于对500多种推理时攻击的分类法,显示当前领先的基准覆盖的潜在威胁全景不到25%。值得注意的是,服务中断和模型内部等类别缺乏标准化评估,尽管在这些领域已有记录在案的成功攻击。 AI
影响 突出了LLM安全评估中的重大差距,可能指导未来的基准开发和红队演练工作。
排序理由 学术论文,介绍了一种新的LLM安全基准分类法和审计框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →