实体 DAPO-17k

DAPO-17k

PulseAugur coverage of DAPO-17k — every cluster mentioning DAPO-17k across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_20388 · May 7 · 04:00

新的平衡聚合方法改进了 LLM 的 GRPO 训练

研究人员已识别并提出了 GRPO 风格训练中聚合偏差的解决方案，这是一种用于增强大型语言模型推理和代码生成的方法。研究表明，标准的 GRPO 聚合方法，即序列聚合和标记聚合，会引入不同的优化偏差。为了对抗这种偏差，他们引入了平衡聚合（BA），这是一种即插即用的替代方案，可提高训练稳定性和性能。使用 Qwen2.5-Math-7B 和 Qwen3-1.7B 模型进行的实验证明了 BA 在各种推理和编码基准测试中的有效性。