PulseAugur
实时 07:28:59
English(EN) OpenBioRQ: Unsolved Biomedical Research Questions for Agents

新的基准 OpenBioRQ 测试 AI 代理验证生物医学研究来源的能力

一个名为 OpenBioRQ 的新基准已被开发出来,用于评估 AI 代理验证来源和避免捏造引用的能力。该基准包含 12,553 个跨越 12 个领域的未解决生物医学研究问题,旨在测试检索式推理和工具使用,而不依赖答案密钥。初步测试显示,虽然目前的代理很少捏造引用,但有相当一部分会链接到不正确的论文,并且一些代理在面对更难的问题时会出现“代理崩溃”,停止使用工具。测试的 Frontier 代理在最难的问题子集上的表现范围为 29-60%。 AI

影响 该基准可以推动 AI 在准确检索和引用信息方面的能力得到提升,这对于可靠的研究辅助至关重要。

排序理由 该集群描述了一篇新的学术基准论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的基准 OpenBioRQ 测试 AI 代理验证生物医学研究来源的能力

报道来源 [1]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    OpenBioRQ: Unsolved Biomedical Research Questions for Agents

    A new biomedical benchmark evaluates agentic models' ability to verify sources and avoid false citations by testing unsolved research questions with no answer keys, revealing significant failures in retrieval-grounded reasoning and tool usage.