一项使用 redteam-ai-benchmark 框架对 30 个 AI 模型进行的最新分析揭示了 AI 安全方面存在的重大漏洞,挑战了关于哪些模型最健壮的假设。研究发现,在实际的进攻性安全场景中,像阿里巴巴的 Tongyi DeepResearch-30B 和 Mistral-7B-v0.2-Base 这样的小型专业模型,其表现优于 Llama 3.1 等更大、更广泛使用的模型。这表明攻击者可以利用强大、易于获取的 AI 工具,使传统的“隐藏即安全”策略过时,并迫使防御者转向模型无关的威胁建模。 AI
影响 强调了 AI 生成攻击日益增长的威胁,以及防御者需要采取模型无关的策略。
排序理由 使用基准框架分析 AI 模型安全性。[lever_c_demoted from research: ic=1 ai=1.0]
- Alibaba Tongyi DeepResearch-30B
- Edilson Osorio Jr.
- Llama 3.1
- Mistral-7B-v0.2-Base
- redteam-ai-benchmark
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →