English(EN) Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

研究表明，RLVR 在 LLM 推理方面优于 SFT

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 07:16

一篇新论文分析了为什么强化微调，特别是具有可验证奖励的强化学习（RLVR），在提高大型语言模型的推理能力方面优于监督微调（SFT）。通过将思维链推理建模为图路径查找问题，研究表明 SFT 在没有负面示例的情况下难以进行有效回溯。相比之下，RLVR 仅使用结果奖励就能学会有效回溯，从而在推理时间计算上产生指数级差异，并为困难决策提供更好的资源分配。 AI

影响展示了 RLVR 在 LLM 推理中高效回溯的优势，有望带来更强大、计算效率更高的模型。

排序理由这是一篇详细介绍 LLM 训练方法理论分析和发现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-22 07:16

Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

Recent advances in large language models (LLMs) have demonstrated that reinforcement fine-tuning of pretrained base models can lead to significant gains in reasoning performance at inference time. In this work, we theoretically analyze why reinforcement fine-tuning induces better…

报道来源 [1]

Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

相关实体

相关话题