English(EN) Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

新的平衡聚合方法改进了 LLM 的 GRPO 训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-07 04:00

研究人员已识别并提出了 GRPO 风格训练中聚合偏差的解决方案，这是一种用于增强大型语言模型推理和代码生成的方法。研究表明，标准的 GRPO 聚合方法，即序列聚合和标记聚合，会引入不同的优化偏差。为了对抗这种偏差，他们引入了平衡聚合（BA），这是一种即插即用的替代方案，可提高训练稳定性和性能。使用 Qwen2.5-Math-7B 和 Qwen3-1.7B 模型进行的实验证明了 BA 在各种推理和编码基准测试中的有效性。 AI

影响引入了一种新颖的聚合方法，可提高 LLM 在推理和代码生成任务中的训练稳定性和性能。

排序理由这是一篇详细介绍改进现有 LLM 训练技术新方法的 ist 论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu · 2026-05-07 04:00

平衡聚合：理解和修复GRPO中的聚合偏差

arXiv:2605.04077v1 Announce Type: new Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a central paradigm for improving reasoning and code generation in large language models, and GRPO-style training is widely adopted for its simplicity and effectiveness…

报道来源 [1]

平衡聚合：理解和修复GRPO中的聚合偏差

相关实体

相关话题