一篇新的研究论文探讨了在强化学习与人类反馈(RLHF)用于代码生成模型时,监督微调(SFT)过度训练的现象。该研究以 Qwen2.5-Coder-3B 和 DeepSeek-Coder-6.7B 为例,发现 SFT 会压缩奖励的分布,导致排名反转,即最初有希望的检查点在 RLHF 后表现不佳。研究人员提出了一种使用预 RL 和早期 RL 熵监测的两阶段诊断方法,以识别并停止失败的运行,并指出标准的正则化技术未能解决该问题。 AI
影响 识别出代码生成 RLHF 中的一种关键故障模式,可能提高模型训练效率和可靠性。
排序理由 该集群包含一篇发表在 arXiv 上的研究论文,详细介绍了 AI 模型训练的发现。
- DeepSeek-Coder-6.7B
- Qwen2.5-Coder-3B
- rank inversion
- RLVR
- Siddharth Aphale
- supervised fine-tuning
- GRPO
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →