PulseAugur
实时 09:22:15
English(EN) Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data

基于结果的强化学习使 Transformer 能够利用正确的数据进行推理

一篇新论文表明,通过基于结果的强化学习训练的 Transformer 可以发展出推理能力,特别是通过生成类似思维链(Chain-of-Thought)的中间步骤。研究证明,即使奖励稀疏且仅关注最终答案的正确性,策略梯度也能引导 Transformer 为图遍历等任务学习结构化的、迭代的算法。至关重要的是,该研究强调了这种推理能力的出现依赖于训练数据的分布,需要足够数量的简单示例才能有效泛化。 AI

影响 展示了 LLM 中涌现推理的理论途径,可能指导未来的训练方法以提高复杂任务的性能。

排序理由 学术论文,详细介绍了对 Transformer 推理能力的理论和实验分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yuval Ran-Milo, Yotam Alexander, Shahar Mendel, Nadav Cohen ·

    Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data

    arXiv:2601.15158v4 Announce Type: replace-cross Abstract: Transformers trained via Reinforcement Learning (RL) with outcome-based supervision can spontaneously develop the ability to generate intermediate reasoning steps (Chain-of-Thought). Yet the mechanism by which sparse rewar…