研究人员开发了一个名为MetaSyn的新基准,用于评估大型语言模型(LLM)代理执行元分析这一复杂任务的能力。该基准包含来自Nature Portfolio期刊的442篇专家精心策划的元分析,其中包含详细的标准、大量的PubMed文章语料库以及经过验证的阳性和阴性研究。初步测试显示,当前的LLM代理在研究选择阶段面临显著困难,尽管检索能力很强,但仍无法可靠地从主题相似但不符合条件的干扰项中识别出符合条件的相关文献。 AI
影响 突显了LLM代理在科学推理方面的关键瓶颈,尤其是在复杂的科学信息综合任务中。
排序理由 该集群包含一篇介绍LLM代理新基准数据集和评估方法的学术论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
- Hugging Face
- LLM Agents
- Nature Portfolio
- PubMed
- alphaXiv
- CatalyzeX
- Connected Papers
- DagsHub
- Gotit.pub
- Litmaps
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →