PulseAugur
实时 17:09:23
实体 deep research agents

deep research agents

PulseAugur coverage of deep research agents — every cluster mentioning deep research agents across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_40852 ·

    新基准揭示LLM法官在研究代理方面不可靠

    研究人员开发了一个名为REFLECT的新基准,用于评估大型语言模型(LLM)作为深度研究代理的法官时的可靠性。这些代理可以自动化复杂的搜集信息任务,其输出需要可扩展的评估,通常依赖LLM法官来判断准确性和推理质量。然而,当前的LLM法官表现出显著的不可靠性,顶级模型在评估推理、工具使用和报告质量方面的准确率不到55%,尤其在证据核实方面存在困难。REFLECT基准提供了详细的失败模式分类,并通过对代理执行轨迹进行受控干预,创建可验证的…