研究人员开发了一种新颖的黑盒对抗框架 BITE,该框架利用 LLM 裁判的风格偏见来人为地提高其分数。通过将风格化编辑的选择框定为上下文老虎机问题,BITE 使用 LinUCB 策略来适应性地选择能够最大化裁判分数的编辑,而无需访问模型参数。该框架成功实现了超过 65% 的攻击成功率,并将 9 分制的分数提高了 1-2 分,同时保持了语义等价性并逃避了检测方法,凸显了 LLM 作为裁判范式中的一个重大漏洞。 AI
影响 暴露了基于 LLM 的评估系统的一个根本性弱点,有必要开发更强大、更具攻击意识的评估方法。
排序理由 学术论文,详细介绍了一种攻击 LLM 裁判的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →