研究人员开发了一个新框架和模型 NarraBERT,用于分析大型语言模型(LLM)预训练数据中的叙事结构。这项分析应用于包含 3 万亿 token 的 Dolma 语料库,揭示了与主体、设定和事件相关的可衡量的、多维度的叙事模式。研究结果表明,叙事质量在不同数据来源和主题之间分布不均,这是数据策展实践中目前未考虑到的一个因素。该研究的框架、数据集(NarraDolma)和模型将公开发布,以增进对数据构成如何影响大型语言模型叙事推理的理解。 AI
影响 提供了一种基于叙事质量来理解和潜在策展大型语言模型训练数据的新方法,这可能会影响模型的行为。
排序理由 该条目描述了一篇研究论文,其中详细介绍了一个用于分析大型语言模型预训练数据的新框架和模型。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →