研究人员开发了一个新的质量-多样性进化框架,用于识别大语言模型中的漏洞。该方法名为 MAP-Elites,能够生成可解释的攻击策略,而不仅仅是 token 序列,从而在不同的行为维度上实现多样化的攻击库。在 GPT-4o-mini、Claude 3.5 Sonnet 和 Gemini 2.0 Flash 等模型上进行的实验揭示了模型特有的不同弱点,为增强大语言模型安全性提供了可操作的见解。 AI
影响 提供了一种新颖、可复现的方法来评估大语言模型的安全性并识别模型特有的弱点。
排序理由 该集群包含一篇学术论文,详细介绍了用于大语言模型安全的新研究方法。
在 arXiv cs.NE (Neural & Evolutionary) 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →