研究人员推出了 TildeOpen LLM,这是一个拥有 300 亿参数的开放权重模型,旨在提高 34 种欧洲语言的性能。该模型通过数据集上采样和在统一语言分布与自然语言分布之间切换的课程式训练计划来解决数据不平衡问题。评估表明,TildeOpen 的表现优于现有的开放权重多语言模型,尤其是在波罗的海、芬兰-乌戈尔和斯拉夫语系语言方面,人类评估显示语言错误显著减少。 AI
影响 增强了多语言人工智能能力,特别是对代表性不足的欧洲语言,可能降低非英语内容生成和理解的门槛。
排序理由 这是一篇详细介绍新发布的开放权重多语言语言模型的研究论文。
- arXiv
- English
- Finno-Ugric languages
- Hugging Face
- Slavic languages
- TildeOpen LLM
- Toms Bergmanis
- Baltic languages
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →