PulseAugur
实时 10:52:34
English(EN) DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

新的 DRA-GRPO 方法通过鼓励多样化路径来提升 LLM 数学推理能力

研究人员推出了一种新颖的 DRA-GRPO 框架,旨在通过解决标准 GRPO 方法中固有的多样性-质量不一致性来增强大型语言模型的数学推理能力。这种新方法使用语义密度和子模互信息来校准奖励信号,以消除梯度估计的偏差,鼓励模型探索更广泛的有效推理策略。在五个数学基准上的实证结果表明,DRA-GRPO 的性能显著优于现有方法,在训练样本数量有限且成本较低的情况下,在 DeepSeek-R1-Distill-Qwen-1.5B 数据集上达到了 58.2% 的准确率。 AI

影响 通过促进多样化的解决问题策略来增强 LLM 的数学推理能力,有可能提高在复杂任务上的性能。

排序理由 该集群包含一篇学术论文,详细介绍了改进 LLM 推理能力的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi ·

    DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

    arXiv:2505.09655v5 Announce Type: replace Abstract: Post-training LLMs with Reinforcement Learning, specifically Group Relative Policy Optimization (GRPO), has emerged as a paradigm for enhancing mathematical reasoning. However, standard GRPO relies on scalar correctness rewards …