English(EN) It Takes One to Bias Them All: Breaking Bad with One-Shot GRPO

研究发现：一个有偏见的示例即可破坏 LLM 的对齐

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 14:44

研究人员证明，在单次示例 GRPO 训练过程中，一个有偏见的示例可以系统性地在大型语言模型中引入偏见。这种偏见可以泛化到不同的属性和基准测试，从而覆盖已建立的对齐防护措施。研究发现，模型对这种操纵的敏感性取决于其最初产生有偏见输出的倾向，这凸显了当前 LLM 对齐技术的一个关键漏洞。 AI

影响揭示了 LLM 对齐的一个关键漏洞，表明当前的方法可能很容易被破坏。

排序理由学术论文，详细介绍了关于 LLM 漏洞的新发现。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Rada Mihalcea · 2026-06-09 14:44

It Takes One to Bias Them All: Breaking Bad with One-Shot GRPO

Warning: This paper contains several toxic and offensive statements. Modern large language models (LLMs) are typically aligned through large-scale post-training to ensure fair and reliable behavior. In this work, we investigate how easily such guardrails can be broken by Group Re…