研究人员开发了 PlexRL,这是一个集群级运行时,旨在提高可验证奖励强化学习 (RLVR) 的大型语言模型 (LLM) 训练效率。由于长尾 rollout 和工具引起的停顿造成的空闲时间,RLVR 训练通常效率低下。PlexRL 通过在多个 RLVR 作业中复用 LLM 服务来解决此问题,通过时间切片执行模型来填补空闲时段,而无需进行昂贵的迁移。评估显示,PlexRL 在保持算法灵活性和增加最小开销的同时,可将 GPU 小时成本降低高达 37.58%。 AI
影响 优化 LLM 训练基础设施,可能降低 RLVR 应用的成本并提高吞吐量。
排序理由 该集群包含一篇学术论文,详细介绍了一种用于优化 LLM 执行的新系统。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →