English(EN) Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining

新研究详细介绍了大型语言模型如何分两个阶段发展跨语言能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员调查了大型语言模型在多语言预训练过程中跨语言泛化能力的出现。通过分析一个在九种语言上进行训练的17亿参数模型及其细粒度检查点，他们观察到语言能力和令牌级复制是同时发展的。翻译技能的出现分为两个阶段：初始阶段依赖于复制和表面相似性，随后进入第二阶段，在此阶段形成更通用的翻译机制，同时复制得到改进。这项研究为多语言模型中跨语言能力的发展提供了详细的视角。 AI

影响提供了跨语言泛化能力在多语言预训练过程中如何发展的细粒度视图，为未来的模型架构和训练策略提供信息。

排序理由学术论文，详细介绍了新的数据集和多语言预训练动态分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

Maria Matveevna Platova

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Felicia K\"orner, Maria Matveev, Florian Eichin, Gitta Kutyniok, Barbara Plank, Michael A. Hedderich · 2026-06-29 04:00

Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining

arXiv:2604.17633v2 Announce Type: replace Abstract: Large language models exhibit impressive cross-lingual capabilities. However, prior work analyzes this phenomenon through isolated factors and at sparse points during training, limiting our understanding of how cross-lingual gen…

报道来源 [1]

Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining

相关话题