English(EN) Weight-Space Geometry of Offline Reasoning Training

新研究探讨AI推理蒸馏方法的权重空间几何

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 04:00

一篇新研究论文分析了用于将推理能力蒸馏到更小AI模型中的各种离线强化学习方法的权重更新的几何特性。该研究使用Qwen3-4B基础模型，在相同的数学相关数据上训练了六种不同的方法——SFT、RFT、DFT、RIFT、Offline GRPO和DPO。分析显示，虽然SFT、RFT和RIFT产生了相似的权重差值和准确率，但DFT显著不同。Offline GRPO引入了一个正交分量，而DPO占据了一个独特的子空间，在GSM8K和AIME26基准测试中取得了最高的准确率，尽管其训练使用了较低的学习率。 AI

影响这项研究为理解AI训练方法的机制差异提供了见解，可能指导未来更有效的推理蒸馏的开发。

排序理由该集群包含一篇详细介绍AI模型训练方法新颖分析的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Aleksandr Nikolich, Igor Kiselev, Vladimir Platonov, Karina Romanova · 2026-06-24 04:00

Weight-Space Geometry of Offline Reasoning Training

arXiv:2606.23740v1 Announce Type: cross Abstract: Offline reinforcement-learning losses (RFT, RIFT, DFT, Offline GRPO, DPO) are widely used to distill reasoning from large teachers into smaller students, and are typically compared on downstream accuracy alone. We ask whether they…

报道来源 [1]

Weight-Space Geometry of Offline Reasoning Training

相关实体

相关话题