发布了两个新的基准测试,DRA-Bank 和 ADRA-Bank,用于评估深度研究代理(DRAs)的能力。这些基准测试旨在评估 DRAs 在模仿管理咨询顾问和学术研究人员工作的任务上的表现,超越了简单的检索,包含了规划、推理以及处理包含认知陷阱的复杂提示。使用这些基准测试进行的早期评估显示,像 Claude Opus 4.6、OpenAI o3-deep-research 和 Google Gemini 3.1 Pro 这样的当前前沿代理难以达到可接受的阈值,表现出明显的失败模式,例如捏造、错误传播或性能不一致。 AI
影响 这些基准测试突显了当前人工智能代理在复杂、现实世界研究任务中的局限性,指导未来朝着更强大的推理和规划能力发展。
排序理由 两篇新的学术论文介绍了用于评估人工智能研究代理的基准测试。
- ADRA-Bank
- Claude Opus 4.6
- DRA-Bank
- Google Gemini 3.1 Pro
- OpenAI o3-deep-research
- Tanmay Asthana
- Zhihan Guo
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →