研究人员引入了一种名为 S2L-PO 的新方法,该方法使用更小的语言模型来改进更大模型的训练。这种方法利用了小型模型固有的策略级多样性,与简单地添加 token 级随机性相比,可以在训练过程中实现更连贯和结构化的探索。通过使用小型模型作为天然探索者,S2L-PO 可以提高数学推理等基准测试的性能,同时降低训练的计算成本。 AI
影响 引入了一种新颖的训练范式,通过多样化的探索来提高 LLM 的性能和效率。
排序理由 该集群包含一篇详细介绍语言模型训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →