研究人员推出了一种名为Self-Distillation Zero (SD-Zero) 的新方法,以提高语言模型训练效率。该技术训练单个模型同时充当生成器和修正器,利用二元奖励创建密集的、token级别的监督。SD-Zero在数学和代码推理任务上展示了显著的性能提升,在可比的训练样本预算下,其表现优于Rejection Fine-Tuning和GRPO等现有基线。 AI
影响 该方法可能导致更具样本效率的大型语言模型训练,从而降低模型开发的计算成本和时间。
排序理由 该集群包含一篇详细介绍新语言模型训练方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- GRPO
- Olmo-3-7B-Instruct
- Qwen3-4B-Instruct
- Rejection Fine-Tuning
- Self-Distillation Fine-Tuning
- Self-Distillation Zero
- Yinghui He
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →