PulseAugur
实时 10:22:38
实体 XSum dataset

XSum dataset

PulseAugur coverage of XSum dataset — every cluster mentioning XSum dataset across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条
  1. TOOL · CL_44821 ·

    新基准揭示大型语言模型在新闻摘要中表现出显著的框架偏见

    研究人员开发了一个名为 Frame In, Frame Out (FIFO) 的新基准,用于衡量大型语言模型生成的新闻摘要中的框架偏见。该基准包含超过 15,000 个陪审团标注的示例,发现大型语言模型生成的新闻摘要的框架率通常高于人类撰写的新闻摘要。这种偏见在与科学和公共卫生相关的新闻摘要中尤为明显,突显了框架作为摘要质量的一个关键但常被忽视的方面。

  2. COMMENTARY · CL_04674 ·

    Eugene Yan shares insights on LLM system building and AI engineering trends

    Eugene Yan presented key learnings from building with Large Language Models (LLMs) at the AI Engineer World's Fair 2024. The keynote, co-authored with others, focused on practical aspects of LLM system development, incl…

  3. RESEARCH · CL_04682 ·

    Eugene Yan 探讨生成式摘要的评估挑战及幻觉检测

    对生成式摘要(即非逐字复制原文句子,而是进行意译重述)的评估存在挑战,尤其是在衡量相关性和事实一致性方面。虽然现代语言模型在流畅性和连贯性方面已基本解决问题,但相关性的衡量仍然主观。事实不一致性,即幻觉的检测是关键焦点,研究表明生成摘要存在显著的错误率,例如在CNN/DailyMail数据集上高达30%。常见的评估方法包括基于n-gram的指标(如ROUGE)和基于嵌入的指标,以及用于幻觉检测的自然语言推理和问答技术。