English(EN) Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

更小的 LLM 提升训练多样性和性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员引入了一种名为 S2L-PO 的新方法，该方法使用更小的语言模型来改进更大模型的训练。这种方法利用了小型模型固有的策略级多样性，与简单地添加 token 级随机性相比，可以在训练过程中实现更连贯和结构化的探索。通过使用小型模型作为天然探索者，S2L-PO 可以提高数学推理等基准测试的性能，同时降低训练的计算成本。 AI

影响引入了一种新颖的训练范式，通过多样化的探索来提高 LLM 的性能和效率。

排序理由该集群包含一篇详细介绍语言模型训练新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu · 2026-06-01 04:00

更小的模型是GRPO策略级多样性的天然探索者

arXiv:2605.30789v1 Announce Type: cross Abstract: We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-l…

报道来源 [1]

更小的模型是GRPO策略级多样性的天然探索者

相关实体

相关话题