PulseAugur
实时 14:27:53
English(EN) Distilling LLM Feedback for Lean Theorem Proving

新训练方法提升大语言模型在定理证明中的推理能力

研究人员开发了一种名为“反馈蒸馏”(Feedback Distillation)的新训练方法,以提高大语言模型在定理证明等复杂推理任务中的性能。该技术使用一个语言模型生成反馈,然后利用该反馈为正在训练的模型提供令牌级监督。在Lean4定理证明环境中的实验表明,与GRPO等传统方法相比,反馈蒸馏能够产生更多样化的解决方案并实现更好的扩展性,同时也可以作为GRPO的有力初始化。 AI

影响 引入了一种新颖的训练范式,增强了大语言模型在形式推理中的能力,有望提高在复杂符号任务上的性能。

排序理由 该集群包含一篇详细介绍大语言模型新训练方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Gaetan Narozniak, G\'erard Biau, R\'emi Munos, Ahmad Rammal, Pierre Marion ·

    提炼大型语言模型反馈以实现精简定理证明

    arXiv:2605.30861v1 Announce Type: new Abstract: Post-training for reasoning models typically combines supervised fine-tuning with reinforcement learning from verifiable rewards, most commonly with GRPO. However, this algorithm suffers from sparse rewards, limited exploration, and…