English(EN) Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

新AI训练方法利用自我修正提升性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-12 04:00

研究人员推出了一种名为Self-Distillation Zero (SD-Zero) 的新方法，以提高语言模型训练效率。该技术训练单个模型同时充当生成器和修正器，利用二元奖励创建密集的、token级别的监督。SD-Zero在数学和代码推理任务上展示了显著的性能提升，在可比的训练样本预算下，其表现优于Rejection Fine-Tuning和GRPO等现有基线。 AI

影响该方法可能导致更具样本效率的大型语言模型训练，从而降低模型开发的计算成本和时间。

排序理由该集群包含一篇详细介绍新语言模型训练方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora · 2026-06-12 04:00

Self-Distillation Zero：自修正将二元奖励转化为密集监督

arXiv:2604.12002v2 Announce Type: replace Abstract: Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during trainin…

报道来源 [1]

Self-Distillation Zero：自修正将二元奖励转化为密集监督

相关实体

相关话题