English(EN) CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

新的 CAST 方法通过自蒸馏提高 LLM 推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了 CAST，这是一种新颖的自蒸馏方法，旨在增强大型语言模型（LLM）中的可验证奖励强化学习（RLVR），特别适用于组相对策略优化（GRPO）。CAST 解决了稀疏结果级奖励的局限性以及来自单策略自蒸馏（OPSD）的令牌级指导可能存在的错位问题。通过使用无答案的自教师并结合双向局部优势符号反转，CAST 旨在提供更有效的、与轨迹正确性对齐的令牌级反馈，这在数学推理任务的实验中得到了证明。 AI

影响引入了一种新技术来改进 LLM 在复杂推理任务中的训练。

排序理由这是一篇描述改进 LLM 推理新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yang Li, Gongle Xue, Yijia Guo, Yuheng Yuan, Liwen Hu, Lei Ma · 2026-06-02 04:00

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

arXiv:2606.00172v1 Announce Type: new Abstract: Reinforcement learning with verifiable rewards (RLVR), especially Group Relative Policy Optimization (GRPO), has been widely used to improve reasoning in large language models. However, outcome-level rewards provide only sparse supe…

报道来源 [1]

CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO

相关实体

相关话题