Brief · PulseAugur

RESEARCH · arXiv cs.NE (Neural & Evolutionary) English(EN) · 1w · [3 sources]

Quality-Diversity Evolution for Discovering Diverse Vulnerabilities in LLM Safety

Researchers have developed a new quality-diversity evolutionary framework to identify vulnerabilities in large language models. This method, named MAP-Elites, creates interpretable attack strategies rather than just token sequences, allowing for a diverse archive of attacks across different behavioral dimensions. Experiments on models like GPT-4o-mini, Claude 3.5 Sonnet, and Gemini 2.0 Flash revealed distinct model-specific weaknesses, offering actionable insights for enhancing LLM safety. AI

IMPACT Provides a novel, reproducible method for evaluating LLM safety and identifying model-specific weaknesses.

GPT-4o-mini
Claude 3.5 Sonnet
Gemini 2.0 Flash
MAP-Elites
Devstral-small-2