研究人员开发了AgentSLR,一个用于评估执行科学知识综合的AI模型的新评估框架,特别关注流行病学系统文献综述。该框架包含一个包含16,000多篇文章的数据集以及综述过程中每个阶段的指标。对五个领先的推理模型进行的测试显示,没有一个模型在所有任务上都表现出色,其中结构化数据提取被证明是一个重大挑战,因为在该领域没有模型的F1分数高于0.67。研究结果表明,目前的AI模型在流行病学等可能影响公共政策的领域中尚不足以进行无监督使用。 AI
影响 强调了AI在复杂科学综合方面的当前局限性,表明在政策相关领域进行无监督部署之前需要进一步发展。
排序理由 这是一篇详细介绍AI模型新评估框架和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →