English(EN) Quality-Diversity Evolution for Discovering Diverse Vulnerabilities in LLM Safety

新的进化框架揭示大语言模型安全漏洞

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-30 16:40

研究人员开发了一个新的质量-多样性进化框架，用于识别大语言模型中的漏洞。该方法名为 MAP-Elites，能够生成可解释的攻击策略，而不仅仅是 token 序列，从而在不同的行为维度上实现多样化的攻击库。在 GPT-4o-mini、Claude 3.5 Sonnet 和 Gemini 2.0 Flash 等模型上进行的实验揭示了模型特有的不同弱点，为增强大语言模型安全性提供了可操作的见解。 AI

影响提供了一种新颖、可复现的方法来评估大语言模型的安全性并识别模型特有的弱点。

排序理由该集群包含一篇学术论文，详细介绍了用于大语言模型安全的新研究方法。

在 arXiv cs.NE (Neural & Evolutionary) 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.AI TIER_1 English(EN) · Saad Hossain, Tom Tseng, Punya Syon Pandey, Samanvay Vajpayee, Matthew Kowal, Nayeema Nonta, Samuel Simko, Stephen Casper, Zhijing Jin, Kellin Pelrine, Sirisha Rambhatla · 2026-06-04 04:00

TamperBench：系统性地在微调和篡改下对 LLM 安全进行压力测试

arXiv:2602.06911v2 Announce Type: replace-cross Abstract: As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. However,…
arXiv cs.CL TIER_1 English(EN) · Subhadip Mitra · 2026-06-02 04:00

用于发现LLM安全领域多样化漏洞的质量-多样性进化

arXiv:2606.00801v1 Announce Type: cross Abstract: Current approaches to LLM adversarial testing suffer from coverage gaps: manual red-teaming does not scale, LLM-as-attacker methods exhibit mode collapse, and gradient-based approaches produce uninterpretable gibberish. We introdu…
arXiv cs.NE (Neural & Evolutionary) TIER_1 English(EN) · Subhadip Mitra · 2026-05-30 16:40

用于发现LLM安全领域多样化漏洞的质量-多样性进化

Current approaches to LLM adversarial testing suffer from coverage gaps: manual red-teaming does not scale, LLM-as-attacker methods exhibit mode collapse, and gradient-based approaches produce uninterpretable gibberish. We introduce a quality-diversity evolutionary framework that…

报道来源 [3]

TamperBench：系统性地在微调和篡改下对 LLM 安全进行压力测试

用于发现LLM安全领域多样化漏洞的质量-多样性进化

用于发现LLM安全领域多样化漏洞的质量-多样性进化

相关实体

相关话题