PulseAugur
实时 07:27:31
English(EN) Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

新基准揭示LLM法官在研究代理方面不可靠

研究人员开发了一个名为REFLECT的新基准,用于评估大型语言模型(LLM)作为深度研究代理的法官时的可靠性。这些代理可以自动化复杂的搜集信息任务,其输出需要可扩展的评估,通常依赖LLM法官来判断准确性和推理质量。然而,当前的LLM法官表现出显著的不可靠性,顶级模型在评估推理、工具使用和报告质量方面的准确率不到55%,尤其在证据核实方面存在困难。REFLECT基准提供了详细的失败模式分类,并通过对代理执行轨迹进行受控干预,创建可验证的实例来验证这些法官,为更健壮的评估流程提供了指导。 AI

影响 强调了当前LLM法官在评估AI代理方面的不可靠性,需要新的基准来支持可信赖的AI开发。

排序理由 该集群描述了一篇介绍用于评估LLM法官的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准揭示LLM法官在研究代理方面不可靠

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Arman Cohan ·

    Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

    Deep research agents increasingly automate complex information-seeking tasks, producing evidence-grounded reports via multi-step reasoning, tool use, and synthesis. Their growing role demands scalable, reliable evaluation, positioning LLM-as-judge as a supervision paradigm for as…