研究人员开发了一个名为REFLECT的新基准,用于评估大型语言模型(LLM)作为深度研究代理的法官时的可靠性。这些代理可以自动化复杂的搜集信息任务,其输出需要可扩展的评估,通常依赖LLM法官来判断准确性和推理质量。然而,当前的LLM法官表现出显著的不可靠性,顶级模型在评估推理、工具使用和报告质量方面的准确率不到55%,尤其在证据核实方面存在困难。REFLECT基准提供了详细的失败模式分类,并通过对代理执行轨迹进行受控干预,创建可验证的实例来验证这些法官,为更健壮的评估流程提供了指导。 AI
影响 强调了当前LLM法官在评估AI代理方面的不可靠性,需要新的基准来支持可信赖的AI开发。
排序理由 该集群描述了一篇介绍用于评估LLM法官的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →