Fireworks AI 开发并提供了一项托管服务,用于在 Frontier 模型上进行强化学习的基础设施,以确保训练和推理之间的数值一致性。该解决方案解决了在整个过程中保持零 Kullback–Leibler 散度 (KLD) 的挑战,并首先支持 GLM-5.2。 AI
影响 使 Frontier 模型能够进行更稳定、更可靠的强化学习,有可能提高其安全性和能力。
排序理由 这是一个针对现有基础设施挑战的托管服务产品,而不是新的 Frontier 模型发布或核心研究。
在 X — Fireworks (inference infra) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →