English(EN) Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data

基于结果的强化学习使 Transformer 能够利用正确的数据进行推理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

一篇新论文表明，通过基于结果的强化学习训练的 Transformer 可以发展出推理能力，特别是通过生成类似思维链（Chain-of-Thought）的中间步骤。研究证明，即使奖励稀疏且仅关注最终答案的正确性，策略梯度也能引导 Transformer 为图遍历等任务学习结构化的、迭代的算法。至关重要的是，该研究强调了这种推理能力的出现依赖于训练数据的分布，需要足够数量的简单示例才能有效泛化。 AI

影响展示了 LLM 中涌现推理的理论途径，可能指导未来的训练方法以提高复杂任务的性能。

排序理由学术论文，详细介绍了对 Transformer 推理能力的理论和实验分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yuval Ran-Milo, Yotam Alexander, Shahar Mendel, Nadav Cohen · 2026-06-04 04:00

Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data

arXiv:2601.15158v4 Announce Type: replace-cross Abstract: Transformers trained via Reinforcement Learning (RL) with outcome-based supervision can spontaneously develop the ability to generate intermediate reasoning steps (Chain-of-Thought). Yet the mechanism by which sparse rewar…

报道来源 [1]

Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data

相关实体

相关话题