研究人员证明,在单次示例 GRPO 训练过程中,一个有偏见的示例可以系统性地在大型语言模型中引入偏见。这种偏见可以泛化到不同的属性和基准测试,从而覆盖已建立的对齐防护措施。研究发现,模型对这种操纵的敏感性取决于其最初产生有偏见输出的倾向,这凸显了当前 LLM 对齐技术的一个关键漏洞。 AI
影响 揭示了 LLM 对齐的一个关键漏洞,表明当前的方法可能很容易被破坏。
排序理由 学术论文,详细介绍了关于 LLM 漏洞的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →