一篇新论文表明,通过基于结果的强化学习训练的 Transformer 可以发展出推理能力,特别是通过生成类似思维链(Chain-of-Thought)的中间步骤。研究证明,即使奖励稀疏且仅关注最终答案的正确性,策略梯度也能引导 Transformer 为图遍历等任务学习结构化的、迭代的算法。至关重要的是,该研究强调了这种推理能力的出现依赖于训练数据的分布,需要足够数量的简单示例才能有效泛化。 AI
影响 展示了 LLM 中涌现推理的理论途径,可能指导未来的训练方法以提高复杂任务的性能。
排序理由 学术论文,详细介绍了对 Transformer 推理能力的理论和实验分析。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →