一个名为 OpenBioRQ 的新基准已被开发出来,用于评估 AI 代理验证来源和避免捏造引用的能力。该基准包含 12,553 个跨越 12 个领域的未解决生物医学研究问题,旨在测试检索式推理和工具使用,而不依赖答案密钥。初步测试显示,虽然目前的代理很少捏造引用,但有相当一部分会链接到不正确的论文,并且一些代理在面对更难的问题时会出现“代理崩溃”,停止使用工具。测试的 Frontier 代理在最难的问题子集上的表现范围为 29-60%。 AI
影响 该基准可以推动 AI 在准确检索和引用信息方面的能力得到提升,这对于可靠的研究辅助至关重要。
排序理由 该集群描述了一篇新的学术基准论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →