研究人员开发了 CAST,这是一种新颖的自蒸馏方法,旨在增强大型语言模型(LLM)中的可验证奖励强化学习(RLVR),特别适用于组相对策略优化(GRPO)。CAST 解决了稀疏结果级奖励的局限性以及来自单策略自蒸馏(OPSD)的令牌级指导可能存在的错位问题。通过使用无答案的自教师并结合双向局部优势符号反转,CAST 旨在提供更有效的、与轨迹正确性对齐的令牌级反馈,这在数学推理任务的实验中得到了证明。 AI
影响 引入了一种新技术来改进 LLM 在复杂推理任务中的训练。
排序理由 这是一篇描述改进 LLM 推理新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →