None Holder Policy Optimisation

HölderPO 将 Hölder 均值统一用于 LLM 策略优化

作者 PulseAugur 编辑部 · [1 source] · 2026-05-22 04:00

研究人员推出了一种新颖的框架 HölderPO，通过统一 Hölder 均值的 token 级概率聚合来优化大型语言模型。该方法为梯度集中和方差之间的权衡提供了持续控制，解决了固定聚合机制可能导致训练崩溃或性能不佳的局限性。采用动态退火算法在训练生命周期中调度 Hölder 均值参数，展示了卓越的稳定性和收敛性。大量评估表明，HölderPO 在数学基准测试中达到了最先进的准确率，并在 ALFWorld 上取得了高成功率。 AI

影响引入了一个新的优化框架，提高了 LLM 在数学和推理任务上的稳定性和性能。

排序理由该集群包含一篇详细介绍优化大型语言模型新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 · Yuxiang Chen, Dingli Liang, Yihang Chen, Ziqin Gong, Chenyang Le, Zhaokai Wang, Jiachen Zhu, Lingyu Yang, Jianghao Lin, Weinan Zhang, Jun Wang · 2026-05-22 04:00

Holder Policy Optimisation

arXiv:2605.12058v2 Announce Type: replace Abstract: Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating …

报道来源 [1]

Holder Policy Optimisation

相关实体

相关话题