English(EN) Characterizing Narrative Content in Web-scale LLM Pretraining Data

新框架分析大型语言模型预训练数据中的叙事结构

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 00:00

研究人员开发了一个新框架和模型 NarraBERT，用于分析大型语言模型（LLM）预训练数据中的叙事结构。这项分析应用于包含 3 万亿 token 的 Dolma 语料库，揭示了与主体、设定和事件相关的可衡量的、多维度的叙事模式。研究结果表明，叙事质量在不同数据来源和主题之间分布不均，这是数据策展实践中目前未考虑到的一个因素。该研究的框架、数据集（NarraDolma）和模型将公开发布，以增进对数据构成如何影响大型语言模型叙事推理的理解。 AI

影响提供了一种基于叙事质量来理解和潜在策展大型语言模型训练数据的新方法，这可能会影响模型的行为。

排序理由该条目描述了一篇研究论文，其中详细介绍了一个用于分析大型语言模型预训练数据的新框架和模型。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-17 00:00

网络规模LLM预训练数据中叙事内容的特征分析

A comprehensive analysis of narrative structures in large-scale language model training data reveals measurable, multidimensional narrative patterns that vary across different content sources and topics.

报道来源 [1]

网络规模LLM预训练数据中叙事内容的特征分析

相关实体

相关话题