研究人员开发了一种名为“反馈蒸馏”(Feedback Distillation)的新训练方法,以提高大语言模型在定理证明等复杂推理任务中的性能。该技术使用一个语言模型生成反馈,然后利用该反馈为正在训练的模型提供令牌级监督。在Lean4定理证明环境中的实验表明,与GRPO等传统方法相比,反馈蒸馏能够产生更多样化的解决方案并实现更好的扩展性,同时也可以作为GRPO的有力初始化。 AI
影响 引入了一种新颖的训练范式,增强了大语言模型在形式推理中的能力,有望提高在复杂符号任务上的性能。
排序理由 该集群包含一篇详细介绍大语言模型新训练方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →