PulseAugur
实时 11:29:56
实体 Hindsight Self-Distillation

Hindsight Self-Distillation

PulseAugur coverage of Hindsight Self-Distillation — every cluster mentioning Hindsight Self-Distillation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_104006 ·

    新HSD方法通过同伴回滚指导增强LLM推理能力

    研究人员开发了一种名为“后见之明自蒸馏”(HSD)的新方法来改进大型语言模型(LLM)的推理能力。传统方法在为长推理链中的单个token分配信用时存在困难,通常依赖于最终的标量奖励。HSD通过将教师模型条件化为一个来自同一训练组的成功同伴回滚,从而提供更详细的、token级别的指导信号来解决这个问题。该方法在数学和代码基准测试中表现出优越的结果,尤其是在答案简洁的任务上,其性能优于现有的强化学习和自蒸馏基线。