研究人员推出了一种新颖的语言模型后训练方法 EvoLM,该方法能够在无外部监督的情况下实现自我改进。该方法交替训练一个评分标准生成器(该生成器创建特定实例的评估标准)和一个策略(该策略使用这些标准作为奖励信号)。EvoLM 通过训练一个 Qwen3-8B 模型生成了超越 GPT-4.1 的评分标准,并使共同训练的策略在另一套基准上取得了高性能,从而证明了其有效性。 AI
影响 该方法可以减少对人类标注和专有模型在 LLM 训练中的依赖,从而可能加速自我改进周期。
排序理由 这是一篇详细介绍语言模型自改进新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →