研究人员推出了一种新颖的 DRA-GRPO 框架,旨在通过解决标准 GRPO 方法中固有的多样性-质量不一致性来增强大型语言模型的数学推理能力。这种新方法使用语义密度和子模互信息来校准奖励信号,以消除梯度估计的偏差,鼓励模型探索更广泛的有效推理策略。在五个数学基准上的实证结果表明,DRA-GRPO 的性能显著优于现有方法,在训练样本数量有限且成本较低的情况下,在 DeepSeek-R1-Distill-Qwen-1.5B 数据集上达到了 58.2% 的准确率。 AI
影响 通过促进多样化的解决问题策略来增强 LLM 的数学推理能力,有可能提高在复杂任务上的性能。
排序理由 该集群包含一篇学术论文,详细介绍了改进 LLM 推理能力的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- DeepSeek-R1-Distill-Qwen-1.5B
- Diversity-aware Reward Adjustment
- DRA-GRPO
- Group Relative Policy Optimization
- Inverse Propensity Scoring
- Submodular Mutual Information
- Xiwen Chen
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →