English(EN) DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

新的 DRA-GRPO 方法通过鼓励多样化路径来提升 LLM 数学推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员推出了一种新颖的 DRA-GRPO 框架，旨在通过解决标准 GRPO 方法中固有的多样性-质量不一致性来增强大型语言模型的数学推理能力。这种新方法使用语义密度和子模互信息来校准奖励信号，以消除梯度估计的偏差，鼓励模型探索更广泛的有效推理策略。在五个数学基准上的实证结果表明，DRA-GRPO 的性能显著优于现有方法，在训练样本数量有限且成本较低的情况下，在 DeepSeek-R1-Distill-Qwen-1.5B 数据集上达到了 58.2% 的准确率。 AI

影响通过促进多样化的解决问题策略来增强 LLM 的数学推理能力，有可能提高在复杂任务上的性能。

排序理由该集群包含一篇学术论文，详细介绍了改进 LLM 推理能力的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi · 2026-06-16 04:00

DRA-GRPO：您的GRPO需要了解用于数学推理的多样化推理路径

arXiv:2505.09655v5 Announce Type: replace Abstract: Post-training LLMs with Reinforcement Learning, specifically Group Relative Policy Optimization (GRPO), has emerged as a paradigm for enhancing mathematical reasoning. However, standard GRPO relies on scalar correctness rewards …

报道来源 [1]

DRA-GRPO：您的GRPO需要了解用于数学推理的多样化推理路径

相关实体

相关话题