研究人员已识别并提出了 GRPO 风格训练中聚合偏差的解决方案,这是一种用于增强大型语言模型推理和代码生成的方法。研究表明,标准的 GRPO 聚合方法,即序列聚合和标记聚合,会引入不同的优化偏差。为了对抗这种偏差,他们引入了平衡聚合(BA),这是一种即插即用的替代方案,可提高训练稳定性和性能。使用 Qwen2.5-Math-7B 和 Qwen3-1.7B 模型进行的实验证明了 BA 在各种推理和编码基准测试中的有效性。 AI
影响 引入了一种新颖的聚合方法,可提高 LLM 在推理和代码生成任务中的训练稳定性和性能。
排序理由 这是一篇详细介绍改进现有 LLM 训练技术新方法的 ist 论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →