研究人员调查了大型语言模型在多语言预训练过程中跨语言泛化能力的出现。通过分析一个在九种语言上进行训练的17亿参数模型及其细粒度检查点,他们观察到语言能力和令牌级复制是同时发展的。翻译技能的出现分为两个阶段:初始阶段依赖于复制和表面相似性,随后进入第二阶段,在此阶段形成更通用的翻译机制,同时复制得到改进。这项研究为多语言模型中跨语言能力的发展提供了详细的视角。 AI
影响 提供了跨语言泛化能力在多语言预训练过程中如何发展的细粒度视图,为未来的模型架构和训练策略提供信息。
排序理由 学术论文,详细介绍了新的数据集和多语言预训练动态分析。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →