实体
NarraDolma
NarraDolma
PulseAugur coverage of NarraDolma — every cluster mentioning NarraDolma across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新框架分析大型语言模型预训练数据中的叙事结构
研究人员开发了一个新框架和模型 NarraBERT,用于分析大型语言模型(LLM)预训练数据中的叙事结构。这项分析应用于包含 3 万亿 token 的 Dolma 语料库,揭示了与主体、设定和事件相关的可衡量的、多维度的叙事模式。研究结果表明,叙事质量在不同数据来源和主题之间分布不均,这是数据策展实践中目前未考虑到的一个因素。该研究的框架、数据集(NarraDolma)和模型将公开发布,以增进对数据构成如何影响大型语言模型叙事推理的理解。
-
新框架分析 LLM 预训练数据中的叙事结构 · 跟踪 4 个来源
研究人员开发了一个新框架和模型 NarraBERT,用于分析大型语言模型 (LLM) 预训练数据中的叙事结构。该研究将此框架应用于 3 万亿 token 的 Dolma 语料库,创建了一个名为 NarraDolma 的新数据集。研究结果表明,叙事质量在各种数据来源和主题中分布不均,这表明当前的语料库构建实践并未考虑到这些细微差别。发布的框架、数据集和模型旨在为理解叙事数据组成及其对 LLM 推理的影响奠定基础。