English(EN) OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources

新数据集挑战 LLM 生成全文“相关工作”

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员推出了 OARelatedWork，这是一个用于生成学术论文中“相关工作”部分的新数据集。该数据集的独特性在于它包含了被引用论文的全文，超越了仅基于摘要的总结。初步基准测试表明，即使是像 GPT-4o-mini 这样的先进 LLM 在处理海量全文上下文中的信息综合方面也面临困难，与仅基于摘要的生成相比，性能显著下降。该研究还分析了人类写作习惯，发现作者经常做出不直接由局部文本支持的抽象陈述，这导致 LLM 在严格的事实性方面优于人类。 AI

影响凸显了 LLM 从大量全文文档中综合信息的能力所面临的挑战，可能为未来学术写作模型的开发提供指导。

排序理由该集群描述了一个新的学术数据集和相关的研究论文，包括模型基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Martin Docekal, Martin Fajcik, Pavel Smrz · 2026-06-02 04:00

OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources

arXiv:2405.01930v2 Announce Type: replace Abstract: This paper introduces OARelatedWork: a dataset for related work generation from open-access sources. It is the first large-scale multi-document summarization dataset for related work generation, containing whole related work sec…

报道来源 [1]

OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources

相关实体

相关话题