一篇新论文认为,目前训练大型语言模型(LLM)的主流方法,包括监督微调(SFT)和强化学习(RL)等广泛的训练后阶段,本质上是回归到更早的“预训练后微调”方法。作者们证明,在现代推理数据集上从头开始训练的模型可以在竞争性基准测试中取得显著的性能,这表明当前的训练后阶段主要用于将模型拟合到特定分布,而不是培养通用能力。他们提议转向强调“学会学习”的训练程序,以开发更具通用能力的模型。 AI
影响 表明当前的 LLM 训练方法可能过度关注分布拟合,可能阻碍更通用人工智能能力的开发。
排序理由 该集群包含一篇讨论 LLM 训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →