Prime Intellect 推出了 prime-rl 0.6.0,一个用于使用 agentic 强化学习训练大型专家混合 (MoE) 模型的开放框架。该新系统成功在软件工程任务上训练了 GLM-5 模型,仅使用 28 个 H200 GPU 实现了 131k 的序列长度。 AI
影响 能够更有效地训练大规模 AI 模型,可能加速 agentic 强化学习领域的研究。
排序理由 发布用于训练大型 AI 模型的开源框架。 [lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →