研究人员推出了一项名为DeepWeb-Bench的新基准,旨在评估前沿语言模型的深度研究能力。该基准比现有基准更具挑战性,需要广泛收集证据、跨源核对和多步推理。对九个前沿模型的初步评估显示,推理和校准失败是主要瓶颈,占错误总数的70%以上,而非检索问题。 AI
影响 该基准将推动前沿模型在复杂推理和证据综合方面取得进步,超越简单的检索任务。
排序理由 该集群描述了一篇在arXiv上发布的新学术基准论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →