新研究详述在单 GPU 上训练的小型语言模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-20 18:42

研究人员详细介绍了一种使用显著更少计算资源（具体来说是在单个 NVIDIA L20 GPU 上）训练小型语言模型 L20-Edu-135M 的方法。该研究侧重于数据效率，预训练使用了约 130 亿个 token，这仅占同类模型通常使用的 token 数量的一小部分。虽然所得模型并未超越 SmolLM-135M 等现有的最先进的小型模型，但其性能优于较旧的公开基线模型，并为资源受限的语言模型开发提供了一个可审计的案例研究。 AI

影响展示了一条以显著降低的计算成本开发有能力的小型语言模型的可行途径。

排序理由该集群包含一篇学术论文，详细介绍了一种用有限资源训练小型语言模型的新方法。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yin Li · 2026-06-20 18:42

L20-Edu-135M：数据高效小型语言模型单GPU可审计研究

Small language models are cheap to serve and feasible on local hardware, but strong public 135M-class systems are commonly trained with hundreds of billions to trillions of tokens on large clusters. We study a sharply resource-constrained regime: a complete 134.5M-parameter langu…

报道来源 [1]

L20-Edu-135M：数据高效小型语言模型单GPU可审计研究

相关实体

相关话题