研究人员调查了在模型自身输出来上进行自训练是否会产生新能力,还是仅仅改进现有能力。他们使用了一个无教师设置,在 Qwen3-4B 模型上配备了生成器、判别器和验证器,发现判别器引导的选择提高了性能。自训练提高了性能上限,但并未加速学习,在更高的计算预算下,基础模型最终表现优于自训练模型,这表明能力被放大而非复合。 AI
影响 这项研究表明,当前的自训练方法可能无法解锁 LLM 的根本新能力,这可能会将重点转移到架构或数据创新上,以实现真正的能力突破。
排序理由 该集群包含一篇详细介绍语言模型训练新研究发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →