English(EN) Post-training is (Massive) Supervised Learning

新论文：LLM 训练后阶段是大规模监督学习

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

一篇新论文认为，目前训练大型语言模型（LLM）的主流方法，包括监督微调（SFT）和强化学习（RL）等广泛的训练后阶段，本质上是回归到更早的“预训练后微调”方法。作者们证明，在现代推理数据集上从头开始训练的模型可以在竞争性基准测试中取得显著的性能，这表明当前的训练后阶段主要用于将模型拟合到特定分布，而不是培养通用能力。他们提议转向强调“学会学习”的训练程序，以开发更具通用能力的模型。 AI

影响表明当前的 LLM 训练方法可能过度关注分布拟合，可能阻碍更通用人工智能能力的开发。

排序理由该集群包含一篇讨论 LLM 训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Michael Hassid, Yossi Adi, Roy Schwartz · 2026-06-09 04:00

训练后（大规模）监督学习

arXiv:2606.07527v1 Announce Type: cross Abstract: The prevailing paradigm for training LLMs has evolved to rely on a massive post-training phase consisting of SFT and RL. In this position paper, we argue that this methodology effectively marks a reversion to the ``pre-train then …

报道来源 [1]

训练后（大规模）监督学习

相关实体

相关话题