研究人员开发了DORA,一种新颖的异步强化学习系统,旨在加速语言模型训练。DORA通过采用多版本流式部署,允许并发策略版本,解决了部署阶段长尾轨迹造成的瓶颈。该系统在基准测试上的吞吐量比现有方法高出2-3倍,在大型工业环境中的训练速度快2-4倍。由此产生的开源模型LongCat-Flash-Thinking在复杂推理任务上表现出竞争力。 AI
影响 加速LLM的RL训练,可能实现更快的迭代和更先进模型的部署。
排序理由 这是一篇详细介绍语言模型训练新系统的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →