English(EN) OpenBioRQ: Unsolved Biomedical Research Questions for Agents

新的基准 OpenBioRQ 测试 AI 代理验证生物医学研究来源的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-20 00:00

一个名为 OpenBioRQ 的新基准已被开发出来，用于评估 AI 代理验证来源和避免捏造引用的能力。该基准包含 12,553 个跨越 12 个领域的未解决生物医学研究问题，旨在测试检索式推理和工具使用，而不依赖答案密钥。初步测试显示，虽然目前的代理很少捏造引用，但有相当一部分会链接到不正确的论文，并且一些代理在面对更难的问题时会出现“代理崩溃”，停止使用工具。测试的 Frontier 代理在最难的问题子集上的表现范围为 29-60%。 AI

影响该基准可以推动 AI 在准确检索和引用信息方面的能力得到提升，这对于可靠的研究辅助至关重要。

排序理由该集群描述了一篇新的学术基准论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-20 00:00

OpenBioRQ: Unsolved Biomedical Research Questions for Agents

A new biomedical benchmark evaluates agentic models' ability to verify sources and avoid false citations by testing unsolved research questions with no answer keys, revealing significant failures in retrieval-grounded reasoning and tool usage.

报道来源 [1]

OpenBioRQ: Unsolved Biomedical Research Questions for Agents

相关实体

相关话题