English(EN) Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges

新的 BITE 框架利用 LLM 裁判偏见来提高分数

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员开发了一种新颖的黑盒对抗框架 BITE，该框架利用 LLM 裁判的风格偏见来人为地提高其分数。通过将风格化编辑的选择框定为上下文老虎机问题，BITE 使用 LinUCB 策略来适应性地选择能够最大化裁判分数的编辑，而无需访问模型参数。该框架成功实现了超过 65% 的攻击成功率，并将 9 分制的分数提高了 1-2 分，同时保持了语义等价性并逃避了检测方法，凸显了 LLM 作为裁判范式中的一个重大漏洞。 AI

影响暴露了基于 LLM 的评估系统的一个根本性弱点，有必要开发更强大、更具攻击意识的评估方法。

排序理由学术论文，详细介绍了一种攻击 LLM 裁判的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xianglin Yang, Bryan Hooi, Gelei Deng, Tianwei Zhang, Jin Song Dong · 2026-05-27 04:00

将偏见转化为 Bug：基于土匪引导的 LLM 裁判风格操控攻击

arXiv:2605.26156v1 Announce Type: cross Abstract: The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a …

报道来源 [1]

将偏见转化为 Bug：基于土匪引导的 LLM 裁判风格操控攻击

相关话题