Qwen2.5-Math-7B
PulseAugur coverage of Qwen2.5-Math-7B — every cluster mentioning Qwen2.5-Math-7B across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
New RL methods boost LLM reasoning and efficiency
Two new research papers introduce novel reinforcement learning techniques for enhancing language model reasoning. The first, GAGPO, proposes a critic-free method for precise temporal credit assignment in multi-turn envi…
-
新理论解释RLVR优化动力学和步长阈值
研究人员开发了一个用于可验证奖励强化学习(RLVR)的理论框架,这是一种用于通过二元反馈微调大型语言模型的技巧。该研究引入了一个“梯度间隙”指标来分析训练过程,并确定了一个关键的收敛步长阈值。该理论解释了响应长度和成功率等因素如何影响学习稳定性,并预测在固定学习率下可能无法达到100%的成功率。
-
New RLVR method enhances LLM reasoning with positive-negative prompt pairing
Researchers have developed a new method called prompt-efficient RLVR that improves the training of large language models for reasoning tasks. This technique focuses on selecting prompts that provide both positive anchor…
-
新的平衡聚合方法改进了 LLM 的 GRPO 训练
研究人员已识别并提出了 GRPO 风格训练中聚合偏差的解决方案,这是一种用于增强大型语言模型推理和代码生成的方法。研究表明,标准的 GRPO 聚合方法,即序列聚合和标记聚合,会引入不同的优化偏差。为了对抗这种偏差,他们引入了平衡聚合(BA),这是一种即插即用的替代方案,可提高训练稳定性和性能。使用 Qwen2.5-Math-7B 和 Qwen3-1.7B 模型进行的实验证明了 BA 在各种推理和编码基准测试中的有效性。