研究人员开发了一种名为“后见之明自蒸馏”(HSD)的新方法来改进大型语言模型(LLM)的推理能力。传统方法在为长推理链中的单个token分配信用时存在困难,通常依赖于最终的标量奖励。HSD通过将教师模型条件化为一个来自同一训练组的成功同伴回滚,从而提供更详细的、token级别的指导信号来解决这个问题。该方法在数学和代码基准测试中表现出优越的结果,尤其是在答案简洁的任务上,其性能优于现有的强化学习和自蒸馏基线。 AI
影响 这种新的HSD方法通过提供更细粒度的信用分配,有可能显著提高LLM在复杂推理任务(尤其是在数学和编码领域)上的性能。
排序理由 该集群描述了一篇详细介绍改进LLM推理新方法的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →