English(EN) TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

TildeOpen LLM 通过课程学习提升低资源欧洲语言的表现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员推出了 TildeOpen LLM，这是一个拥有 300 亿参数的开放权重模型，旨在提高 34 种欧洲语言的性能。该模型通过数据集上采样和在统一语言分布与自然语言分布之间切换的课程式训练计划来解决数据不平衡问题。评估表明，TildeOpen 的表现优于现有的开放权重多语言模型，尤其是在波罗的海、芬兰-乌戈尔和斯拉夫语系语言方面，人类评估显示语言错误显著减少。 AI

影响增强了多语言人工智能能力，特别是对代表性不足的欧洲语言，可能降低非英语内容生成和理解的门槛。

排序理由这是一篇详细介绍新发布的开放权重多语言语言模型的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalni\c{n}\v{s}, D\=avis Nicmanis, Je\c{l}izaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis · 2026-04-30 04:00

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

arXiv:2603.08182v2 Announce Type: replace Abstract: Large language models often underperform in many European languages due to the dominance of English and a few high-resource languages in training data. This paper presents TildeOpen LLM, a 30-billion-parameter open-weight founda…

报道来源 [1]

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

相关实体

相关话题