PulseAugur
实时 09:29:35
English(EN) TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition

TD-Grokking框架使LLM能够从零奖励问题中学习

研究人员引入了TD-Grokking,一个旨在使大型语言模型能够从零奖励问题中学习的新框架。该方法将复杂、棘手的问题递归地分解为更小、可验证的子问题。这些子问题形成一个层次结构,可解的叶节点为模型改进提供必要的优化信号。在数学和医学任务上的评估表明,TD-Grokking的性能显著优于现有的基线方法。 AI

影响 使LLM能够从以前无法解决的零奖励问题中学习,有可能扩展它们在复杂推理任务中的能力。

排序理由 这是一篇详细介绍LLM训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Ningyuan Xi, Hao Xu, Hongsheng Xin, Ning Miao ·

    TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition

    arXiv:2606.09883v1 Announce Type: cross Abstract: Large language models (LLMs) have made remarkable progress in reasoning tasks, largely driven by post-training paradigms, especially reinforcement learning with verifiable rewards (RLVR). However, a critical bottleneck persists: R…