研究人员推出了 SurGE,这是一个新的基准和评估框架,旨在评估大型语言模型在生成科学调查方面的能力。该框架包括一个包含主题描述和专家撰写调查的测试实例数据集,以及一个包含一百多万篇学术论文的语料库。一个自动评估系统根据全面性、引用准确性、组织性和内容质量来衡量生成的调查,结果显示当前先进的模型在该领域仍面临重大挑战。 AI
影响 为评估 LLM 在学术调查生成方面的性能树立了新标准,有望指导未来的研究和开发。
排序理由 这是一篇介绍针对特定人工智能任务的新基准和评估框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →