English(EN) Evaluating AI-based Scientific Knowledge Synthesis with Epidemiological Systematic Reviews

新研究发现AI模型在科学文献综合方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员开发了AgentSLR，一个用于评估执行科学知识综合的AI模型的新评估框架，特别关注流行病学系统文献综述。该框架包含一个包含16,000多篇文章的数据集以及综述过程中每个阶段的指标。对五个领先的推理模型进行的测试显示，没有一个模型在所有任务上都表现出色，其中结构化数据提取被证明是一个重大挑战，因为在该领域没有模型的F1分数高于0.67。研究结果表明，目前的AI模型在流行病学等可能影响公共政策的领域中尚不足以进行无监督使用。 AI

影响强调了AI在复杂科学综合方面的当前局限性，表明在政策相关领域进行无监督部署之前需要进一步发展。

排序理由这是一篇详细介绍AI模型新评估框架和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, {\L}ukasz Borchmann, Piotr B{\L}aszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova… · 2026-06-08 04:00

使用基于人工智能的流行病学系统评价方法评估科学知识合成

arXiv:2603.22327v2 Announce Type: replace-cross Abstract: Systematic literature reviews (SLRs) are a demanding and high-stakes form of scientific knowledge synthesis that remains underspecified as an evaluation setting for large language models (LLMs). We introduce AgentSLR, a la…

报道来源 [1]

使用基于人工智能的流行病学系统评价方法评估科学知识合成

相关实体

相关话题