English(EN) SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation

新基准 SurGE 评估 LLM 在科学调查生成方面的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员推出了 SurGE，这是一个新的基准和评估框架，旨在评估大型语言模型在生成科学调查方面的能力。该框架包括一个包含主题描述和专家撰写调查的测试实例数据集，以及一个包含一百多万篇学术论文的语料库。一个自动评估系统根据全面性、引用准确性、组织性和内容质量来衡量生成的调查，结果显示当前先进的模型在该领域仍面临重大挑战。 AI

影响为评估 LLM 在学术调查生成方面的性能树立了新标准，有望指导未来的研究和开发。

排序理由这是一篇介绍针对特定人工智能任务的新基准和评估框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Weihang Su, Anzhe Xie, Qingyao Ai, Jianming Long, Xuanyi Chen, Jiaxin Mao, Ziyi Ye, Yiqun Liu · 2026-05-05 04:00

SurGE：科学调查生成基准和评估框架

arXiv:2508.15658v5 Announce Type: replace Abstract: The rapid growth of academic literature makes the manual creation of scientific surveys increasingly infeasible. While large language models show promise for automating this process, progress in this area is hindered by the abse…

报道来源 [1]

SurGE：科学调查生成基准和评估框架

相关实体

相关话题