研究人员开发了INFUSER,一个用于自我进化语言模型的新框架,可增强推理能力。该迭代式协同训练系统包含一个生成器(Generator),用于从文档中生成问题和答案,以及一个从中学习的求解器(Solver)。生成器根据影响分数(influence score)获得奖励,确保它生成真正能提升求解器性能的问题,而非仅仅是难题。INFUSER展示了显著的改进,一个8B模型在数学和编码任务上的表现优于一个更大的32B模型。 AI
影响 通过创建自适应训练课程来增强LLM的推理能力,可能带来更强大的AI代理。
排序理由 该集群包含一篇详细介绍改进语言模型推理新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →