PulseAugur
实时 07:28:54
English(EN) Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges

新的 BITE 框架利用 LLM 裁判偏见来提高分数

研究人员开发了一种新颖的黑盒对抗框架 BITE,该框架利用 LLM 裁判的风格偏见来人为地提高其分数。通过将风格化编辑的选择框定为上下文老虎机问题,BITE 使用 LinUCB 策略来适应性地选择能够最大化裁判分数的编辑,而无需访问模型参数。该框架成功实现了超过 65% 的攻击成功率,并将 9 分制的分数提高了 1-2 分,同时保持了语义等价性并逃避了检测方法,凸显了 LLM 作为裁判范式中的一个重大漏洞。 AI

影响 暴露了基于 LLM 的评估系统的一个根本性弱点,有必要开发更强大、更具攻击意识的评估方法。

排序理由 学术论文,详细介绍了一种攻击 LLM 裁判的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Xianglin Yang, Bryan Hooi, Gelei Deng, Tianwei Zhang, Jin Song Dong ·

    Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges

    arXiv:2605.26156v1 Announce Type: cross Abstract: The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a …