实体 XSum dataset

XSum dataset

PulseAugur coverage of XSum dataset — every cluster mentioning XSum dataset across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 6

层级分布 · 90 天

research 2
tool 3
commentary 1

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_147808 · Jul 17 · 04:00

研究论文提出使用合成数据验证来防止模型坍塌

一篇新的研究论文探讨了“模型坍塌”现象，即生成模型在自身合成数据上训练时，性能会随时间下降。研究提出，引入外部合成数据验证器（无论是人类还是其他模型）可以防止这种坍塌。对线性回归、带有MNIST的变分自编码器（VAE）以及在XSum上微调SmolLM2-135M的理论分析和实验表明，虽然验证器引导的再训练可以提供初步改进，但如果验证器不完全准确，最终可能导致性能停滞或逆转。
RESEARCH · CL_141171 · Jul 12 · 15:25

提出新的文本摘要抽象性指标 · 跟踪到2个来源

研究人员引入了新的指标——参考抽象（RA）、摘要抽象（SA）和抽象比（AR）——以更好地评估文本摘要模型的抽象性。这些指标旨在量化生成摘要在多大程度上偏离了简单复制源文本，超越了ROUGE等传统度量方法。使用BART-large-cnn和Pegasus-xsum等模型在XSum数据集上进行的经验验证表明，这些指标可以有效地区分抽取式和抽象式摘要方法，其中抽象比还指出了潜在的幻觉问题。
RESEARCH · CL_98101 · Jun 17 · 11:29

新的SenFlow方法改进了混合文档中AI生成文本的检测 · 跟踪到2个来源

研究人员开发了SenFlow，一种用于检测人与AI合著文档中AI生成文本的新颖方法。与以往孤立分析句子的方法不同，SenFlow将检测视为一个结构化预测问题，对句间依赖关系进行建模。该方法在MOSAIC上进行了评估，MOSAIC是一个包含DeepSeek V3.2和Kimi K2生成的16,000份混合文档的新基准，并取得了最先进的性能。
TOOL · CL_44821 · May 22 · 04:00

新基准揭示大型语言模型在新闻摘要中表现出显著的框架偏见

研究人员开发了一个名为 Frame In, Frame Out (FIFO) 的新基准，用于衡量大型语言模型生成的新闻摘要中的框架偏见。该基准包含超过 15,000 个陪审团标注的示例，发现大型语言模型生成的新闻摘要的框架率通常高于人类撰写的新闻摘要。这种偏见在与科学和公共卫生相关的新闻摘要中尤为明显，突显了框架作为摘要质量的一个关键但常被忽视的方面。
COMMENTARY · CL_04674 · Oct 9 · 00:00

Eugene Yan 分享关于大语言模型系统构建和 AI 工程趋势的见解

Eugene Yan 在 2024 年 AI Engineer World's Fair 上分享了构建大语言模型 (LLM) 的关键经验。本次主旨演讲由多人合著，重点关注 LLM 系统开发的实际方面，包括评估、检索增强生成 (RAG) 和护栏。Yan 还讨论了持续评估 LLM 的挑战，并引用了 OpenAI、Anthropic 等公司研究人员对基准可靠性和任务相关性的担忧。
RESEARCH · CL_04682 · Sep 3 · 00:00

Eugene Yan 探讨生成式摘要的评估挑战及幻觉检测

对生成式摘要（即非逐字复制原文句子，而是进行意译重述）的评估存在挑战，尤其是在衡量相关性和事实一致性方面。虽然现代语言模型在流畅性和连贯性方面已基本解决问题，但相关性的衡量仍然主观。事实不一致性，即幻觉的检测是关键焦点，研究表明生成摘要存在显著的错误率，例如在CNN/DailyMail数据集上高达30%。常见的评估方法包括基于n-gram的指标（如ROUGE）和基于嵌入的指标，以及用于幻觉检测的自然语言推理和问答技术。