English(EN) Teacher-Free Self-Training Amplifies but Does Not Compound: A Pass@$K$ Crossover on a Free-Verifier Domain

自训练可放大但不会复合 LLM 能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员调查了在模型自身输出来上进行自训练是否会产生新能力，还是仅仅改进现有能力。他们使用了一个无教师设置，在 Qwen3-4B 模型上配备了生成器、判别器和验证器，发现判别器引导的选择提高了性能。自训练提高了性能上限，但并未加速学习，在更高的计算预算下，基础模型最终表现优于自训练模型，这表明能力被放大而非复合。 AI

影响这项研究表明，当前的自训练方法可能无法解锁 LLM 的根本新能力，这可能会将重点转移到架构或数据创新上，以实现真正的能力突破。

排序理由该集群包含一篇详细介绍语言模型训练新研究发现的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Igor Lima Strozzi · 2026-06-09 04:00

无教师自监督训练可放大但不可累积：在免费验证器域上的 Pass@$K$ 交叉研究

arXiv:2606.07856v1 Announce Type: new Abstract: When a language model trains on its own verified outputs, does it acquire capability beyond its base, or merely get better at expressing capability the base already had? We make the question decidable with a teacher-free "constellat…

报道来源 [1]

无教师自监督训练可放大但不可累积：在免费验证器域上的 Pass@$K$ 交叉研究

相关实体

相关话题