新的FRPO方法在无critic的情况下改进了LLM训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了未来KL正则化策略优化（FRPO），一种无需critic模型即可改进大型语言模型（LLM）后训练的新颖方法。FRPO通过引入因果未来KL校正来解决组相对策略优化（GRPO）的局限性，该校正考虑了局部token惩罚所遗漏的自回归KL正则化。这种方法增强了策略梯度信号，并在数学推理任务上展示了pass@16的改进，同时与现有方法相比保持了更高的熵和更低的策略漂移。 AI

影响引入了一种更有效的LLM微调方法，可能降低计算成本并提高推理任务的性能。

排序理由详细介绍LLM训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jiarui Yao, Ruida Wang, Hao Bai, Tong Zhang · 2026-05-26 04:00

Future-KL 正则化 GRPO：来自 $f$-散度正则化的过程级信用分配

arXiv:2601.10201v2 Announce Type: replace-cross Abstract: Group Relative Policy Optimization (GRPO) is widely used for critic-free Large Language Model (LLM) post-training, but its KL regularization is usually implemented as a local loss-side token penalty. We show that this miss…

报道来源 [1]

Future-KL 正则化 GRPO：来自 $f$-散度正则化的过程级信用分配

相关实体

相关话题