English(EN) TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition

TD-Grokking框架使LLM能够从零奖励问题中学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员引入了TD-Grokking，一个旨在使大型语言模型能够从零奖励问题中学习的新框架。该方法将复杂、棘手的问题递归地分解为更小、可验证的子问题。这些子问题形成一个层次结构，可解的叶节点为模型改进提供必要的优化信号。在数学和医学任务上的评估表明，TD-Grokking的性能显著优于现有的基线方法。 AI

影响使LLM能够从以前无法解决的零奖励问题中学习，有可能扩展它们在复杂推理任务中的能力。

排序理由这是一篇详细介绍LLM训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ningyuan Xi, Hao Xu, Hongsheng Xin, Ning Miao · 2026-06-10 04:00

TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition

arXiv:2606.09883v1 Announce Type: cross Abstract: Large language models (LLMs) have made remarkable progress in reasoning tasks, largely driven by post-training paradigms, especially reinforcement learning with verifiable rewards (RLVR). However, a critical bottleneck persists: R…

报道来源 [1]

TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition

相关实体

相关话题