PulseAugur
实时 13:01:03
English(EN) OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources

新数据集挑战 LLM 生成全文“相关工作”

研究人员推出了 OARelatedWork,这是一个用于生成学术论文中“相关工作”部分的新数据集。该数据集的独特性在于它包含了被引用论文的全文,超越了仅基于摘要的总结。初步基准测试表明,即使是像 GPT-4o-mini 这样的先进 LLM 在处理海量全文上下文中的信息综合方面也面临困难,与仅基于摘要的生成相比,性能显著下降。该研究还分析了人类写作习惯,发现作者经常做出不直接由局部文本支持的抽象陈述,这导致 LLM 在严格的事实性方面优于人类。 AI

影响 凸显了 LLM 从大量全文文档中综合信息的能力所面临的挑战,可能为未来学术写作模型的开发提供指导。

排序理由 该集群描述了一个新的学术数据集和相关的研究论文,包括模型基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Martin Docekal, Martin Fajcik, Pavel Smrz ·

    OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources

    arXiv:2405.01930v2 Announce Type: replace Abstract: This paper introduces OARelatedWork: a dataset for related work generation from open-access sources. It is the first large-scale multi-document summarization dataset for related work generation, containing whole related work sec…