English(EN) SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

AI 研究：SFT 过度训练导致代码生成模型排名反转

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-16 20:59

一篇新的研究论文探讨了在强化学习与人类反馈（RLHF）用于代码生成模型时，监督微调（SFT）过度训练的现象。该研究以 Qwen2.5-Coder-3B 和 DeepSeek-Coder-6.7B 为例，发现 SFT 会压缩奖励的分布，导致排名反转，即最初有希望的检查点在 RLHF 后表现不佳。研究人员提出了一种使用预 RL 和早期 RL 熵监测的两阶段诊断方法，以识别并停止失败的运行，并指出标准的正则化技术未能解决该问题。 AI

影响识别出代码生成 RLHF 中的一种关键故障模式，可能提高模型训练效率和可靠性。

排序理由该集群包含一篇发表在 arXiv 上的研究论文，详细介绍了 AI 模型训练的发现。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Siddharth Aphale, Kelly Liu · 2026-06-18 04:00

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

arXiv:2606.18487v1 Announce Type: cross Abstract: The standard heuristic of selecting the SFT checkpoint with the highest pass@1 for GRPO can fail when SFT compresses the rollout distribution. For binary rewards, the expected within group advantage variance is $p(1{-}p)(g{-}1)/g$…
arXiv cs.CL TIER_1 English(EN) · Kelly Liu · 2026-06-16 20:59

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

The standard heuristic of selecting the SFT checkpoint with the highest pass@1 for GRPO can fail when SFT compresses the rollout distribution. For binary rewards, the expected within group advantage variance is $p(1{-}p)(g{-}1)/g$; when early GRPO drives $p$ below $p^*(g)$, most …

报道来源 [2]

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR

相关实体

相关话题