实体 TD-Grokking

TD-Grokking

PulseAugur coverage of TD-Grokking — every cluster mentioning TD-Grokking across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_82523 · Jun 10 · 04:00

TD-Grokking框架使LLM能够从零奖励问题中学习

研究人员引入了TD-Grokking，一个旨在使大型语言模型能够从零奖励问题中学习的新框架。该方法将复杂、棘手的问题递归地分解为更小、可验证的子问题。这些子问题形成一个层次结构，可解的叶节点为模型改进提供必要的优化信号。在数学和医学任务上的评估表明，TD-Grokking的性能显著优于现有的基线方法。