PulseAugur
实时 13:25:48
English(EN) Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps

新的基准测试显示前沿人工智能代理在复杂研究任务中遇到困难

发布了两个新的基准测试,DRA-BankADRA-Bank,用于评估深度研究代理(DRAs)的能力。这些基准测试旨在评估 DRAs 在模仿管理咨询顾问和学术研究人员工作的任务上的表现,超越了简单的检索,包含了规划、推理以及处理包含认知陷阱的复杂提示。使用这些基准测试进行的早期评估显示,像 Claude Opus 4.6OpenAI o3-deep-researchGoogle Gemini 3.1 Pro 这样的当前前沿代理难以达到可接受的阈值,表现出明显的失败模式,例如捏造、错误传播或性能不一致。 AI

影响 这些基准测试突显了当前人工智能代理在复杂、现实世界研究任务中的局限性,指导未来朝着更强大的推理和规划能力发展。

排序理由 两篇新的学术论文介绍了用于评估人工智能研究代理的基准测试。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Tanmay Asthana, Aman Saksena, Divyansh Sahu ·

    Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps

    arXiv:2605.17554v2 Announce Type: replace Abstract: Frontier deep research agents (DRAs) plan a research task, synthesize across documents, and return a structured deliverable on demand. They are being deployed in enterprise workflows faster than they are being evaluated. Existin…

  2. arXiv cs.CL TIER_1 English(EN) · Zhihan Guo, Feiyang Xu, Yifan Li, Muzhi Li, Shuai Zou, Jiele Wu, Han Shi, Haoli Bai, Ho-fung Leung, Irwin King ·

    ADRA-Bank: A Modular Benchmark for Academic Deep Research Agents

    arXiv:2512.00986v3 Announce Type: replace Abstract: A surge in academic publications calls for automated deep research (DR) systems, but accurately evaluating them is still an open problem. First, existing benchmarks often focus narrowly on retrieval while neglecting high-level p…