PulseAugur
实时 10:27:03
English(EN) Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

研究表明,RLVR 在 LLM 推理方面优于 SFT

一篇新论文分析了为什么强化微调,特别是具有可验证奖励的强化学习(RLVR),在提高大型语言模型的推理能力方面优于监督微调(SFT)。通过将思维链推理建模为图路径查找问题,研究表明 SFT 在没有负面示例的情况下难以进行有效回溯。相比之下,RLVR 仅使用结果奖励就能学会有效回溯,从而在推理时间计算上产生指数级差异,并为困难决策提供更好的资源分配。 AI

影响 展示了 RLVR 在 LLM 推理中高效回溯的优势,有望带来更强大、计算效率更高的模型。

排序理由 这是一篇详细介绍 LLM 训练方法理论分析和发现的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究表明,RLVR 在 LLM 推理方面优于 SFT

报道来源 [1]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

    Recent advances in large language models (LLMs) have demonstrated that reinforcement fine-tuning of pretrained base models can lead to significant gains in reasoning performance at inference time. In this work, we theoretically analyze why reinforcement fine-tuning induces better…