实体 Qwen2.5-Math-7B

Qwen2.5-Math-7B

PulseAugur coverage of Qwen2.5-Math-7B — every cluster mentioning Qwen2.5-Math-7B across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_82536 · Jun 10 · 04:00

新的采样方法在不更新参数的情况下提升了大型语言模型的推理能力

研究人员开发了一种名为熵引导功率采样（EGPS）的新采样方法，以提高基础语言模型的推理能力。该方法通过关注序列内的高熵区域来解决传统Metropolis-Hastings采样器的低效问题，从而实现更快、更有效的采样。EGPS在MATH500、HumanEval和GPQA等基准测试中表现强劲，与现有技术相比实现了显著的加速。
RESEARCH · CL_27737 · May 9 · 10:51

新的强化学习方法提升大语言模型的推理和效率

两篇新的研究论文介绍了用于增强语言模型推理的新型强化学习技术。第一篇 GAGPO 提出了一种无批评者的方法，用于在多轮环境中进行精确的时间信用分配，从而改进了与步骤对齐的学习。第二篇 CoDistill-GRPO 提出了一种联合蒸馏方法，用于同时训练大型和小型语言模型，使得分组相对策略优化对于小型模型来说更高效、更易于使用。
TOOL · CL_22082 · May 8 · 04:00

新理论解释RLVR优化动力学和步长阈值

研究人员开发了一个用于可验证奖励强化学习（RLVR）的理论框架，这是一种用于通过二元反馈微调大型语言模型的技巧。该研究引入了一个“梯度间隙”指标来分析训练过程，并确定了一个关键的收敛步长阈值。该理论解释了响应长度和成功率等因素如何影响学习稳定性，并预测在固定学习率下可能无法达到100%的成功率。
TOOL · CL_20550 · May 7 · 04:00

新的RLVR方法通过正负提示配对增强LLM推理能力

研究人员开发了一种名为提示高效RLVR的新方法，可改进大型语言模型在推理任务上的训练。该技术侧重于选择同时提供积极锚点和来自罕见失败信号的提示，这与以往基于方差的方法不同。通过配对“难但可解”和“易但脆弱”的提示，并使用加权方法来放大成功和失败，该方法提高了样本效率，并在数学推理基准测试中取得了显著的性能提升。
TOOL · CL_20388 · May 7 · 04:00

新的平衡聚合方法改进了 LLM 的 GRPO 训练

研究人员已识别并提出了 GRPO 风格训练中聚合偏差的解决方案，这是一种用于增强大型语言模型推理和代码生成的方法。研究表明，标准的 GRPO 聚合方法，即序列聚合和标记聚合，会引入不同的优化偏差。为了对抗这种偏差，他们引入了平衡聚合（BA），这是一种即插即用的替代方案，可提高训练稳定性和性能。使用 Qwen2.5-Math-7B 和 Qwen3-1.7B 模型进行的实验证明了 BA 在各种推理和编码基准测试中的有效性。

新的采样方法在不更新参数的情况下提升了大型语言模型的推理能力

新的强化学习方法提升大语言模型的推理和效率

新理论解释RLVR优化动力学和步长阈值

新的RLVR方法通过正负提示配对增强LLM推理能力

新的平衡聚合方法改进了 LLM 的 GRPO 训练