English(EN) How Much Online RL is Enough? Informative Rollouts for Offline Preference Optimization in RLVR

新的G2D流水线以更少的计算量优化语言模型

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-20 14:53

研究人员开发了G2D，一个三阶段流水线，结合了GRPO和DPO，以更有效地对语言模型进行离线偏好优化。该方法包括简短的GRPO预热，然后构建静态偏好数据集，最后用DPO进行微调。在Qwen2.5-7B和Llama-3.1-8B模型上的实验表明，G2D通过关注偏好数据的有效性而非仅仅数量，能够以显著降低的计算成本匹配或超越完全在线GRPO的性能。 AI

影响通过提高数据有效性，为语言模型训练提供了比在线强化学习更节省计算资源的选择。

排序理由该集群包含一篇详细介绍语言模型优化新方法的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Richa Verma, Balaraman Ravindran · 2026-05-22 04:00

多少在线强化学习才够？RLVR中用于离线偏好优化的信息性 rollout

arXiv:2605.21266v1 Announce Type: cross Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for reasoning in language models, with GRPO as its primary example. However, GRPO requires continuous online rollout generation, making it co…
arXiv cs.AI TIER_1 English(EN) · Balaraman Ravindran · 2026-05-20 14:53

多少在线强化学习才够？用于离线偏好优化RLVR的信息性Rollouts

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for reasoning in language models, with GRPO as its primary example. However, GRPO requires continuous online rollout generation, making it computationally expensive and difficult to scale. Wh…

报道来源 [2]

多少在线强化学习才够？RLVR中用于离线偏好优化的信息性 rollout

多少在线强化学习才够？用于离线偏好优化RLVR的信息性Rollouts

相关实体

相关话题