English(EN) Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

新基准揭示LLM法官在研究代理方面不可靠

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-18 23:55

研究人员开发了一个名为REFLECT的新基准，用于评估大型语言模型（LLM）作为深度研究代理的法官时的可靠性。这些代理可以自动化复杂的搜集信息任务，其输出需要可扩展的评估，通常依赖LLM法官来判断准确性和推理质量。然而，当前的LLM法官表现出显著的不可靠性，顶级模型在评估推理、工具使用和报告质量方面的准确率不到55%，尤其在证据核实方面存在困难。REFLECT基准提供了详细的失败模式分类，并通过对代理执行轨迹进行受控干预，创建可验证的实例来验证这些法官，为更健壮的评估流程提供了指导。 AI

影响强调了当前LLM法官在评估AI代理方面的不可靠性，需要新的基准来支持可信赖的AI开发。

排序理由该集群描述了一篇介绍用于评估LLM法官的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Arman Cohan · 2026-05-18 23:55

是时候反思了：我们能信任LLM作为证据研究助手吗？

Deep research agents increasingly automate complex information-seeking tasks, producing evidence-grounded reports via multi-step reasoning, tool use, and synthesis. Their growing role demands scalable, reliable evaluation, positioning LLM-as-judge as a supervision paradigm for as…

报道来源 [1]

是时候反思了：我们能信任LLM作为证据研究助手吗？

相关实体

相关话题