English(EN) Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

Metis框架学会越狱LLM，成功率达89.2%

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 06:45

研究人员开发了Metis，一个将LLM越狱重新表述为推理时策略优化的新框架。该方法使用自演化的元认知循环来诊断防御逻辑并改进其攻击策略，提供更具可解释性的推理轨迹。Metis在10个模型上展示了89.2%的平均攻击成功率，显著优于传统方法在有弹性的前沿模型上的表现，并将平均令牌成本降低了8.2倍。 AI

影响凸显了当前LLM防御的漏洞，需要开发更强大、更动态的安全机制。

排序理由该集群描述了一篇详细介绍LLM安全研究新框架的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xuelong Li · 2026-05-11 06:45

Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

Red teaming is critical for uncovering vulnerabilities in Large Language Models (LLMs). While automated methods have improved scalability, existing approaches often rely on static heuristics or stochastic search, rendering them brittle against advanced safety alignment. To addres…

报道来源 [1]

Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

相关实体

相关话题