PulseAugur
实时 10:52:24
实体 TD-Grokking

TD-Grokking

PulseAugur coverage of TD-Grokking — every cluster mentioning TD-Grokking across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_82523 ·

    TD-Grokking框架使LLM能够从零奖励问题中学习

    研究人员引入了TD-Grokking,一个旨在使大型语言模型能够从零奖励问题中学习的新框架。该方法将复杂、棘手的问题递归地分解为更小、可验证的子问题。这些子问题形成一个层次结构,可解的叶节点为模型改进提供必要的优化信号。在数学和医学任务上的评估表明,TD-Grokking的性能显著优于现有的基线方法。