研究人员引入了TD-Grokking,一个旨在使大型语言模型能够从零奖励问题中学习的新框架。该方法将复杂、棘手的问题递归地分解为更小、可验证的子问题。这些子问题形成一个层次结构,可解的叶节点为模型改进提供必要的优化信号。在数学和医学任务上的评估表明,TD-Grokking的性能显著优于现有的基线方法。 AI
影响 使LLM能够从以前无法解决的零奖励问题中学习,有可能扩展它们在复杂推理任务中的能力。
排序理由 这是一篇详细介绍LLM训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →