English(EN) Why Semantic Entropy Fails: Geometry-Aware and Calibrated Uncertainty for Policy Optimization

新的GCPO框架通过几何感知不确定性改进LLM的后训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了一个名为几何感知校准策略优化（GCPO）的新框架，以改进大型语言模型的后训练方法。目前使用语义熵作为不确定性信号的方法在优化中的影响不稳定且不明确。GCPO通过整合几何感知度量和基于奖励的校准来解决这个问题，以更好地捕捉语义分歧并将不确定性与学习信号强度对齐。实验表明，GCPO能更准确地跟踪梯度变化，并持续提升后训练性能。 AI

影响这项研究通过在后训练中更好地估计不确定性，为改进LLM的推理和对齐提供了一种更符合原则的方法。

排序理由该集群包含一篇提出LLM后训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Zheyuan Zhang, Kaiwen Shi, Han Bao, Zehong Wang, Tianyi Ma, Yanfang Ye · 2026-05-22 04:00

为何语义熵失效：面向策略优化的几何感知和校准不确定性

arXiv:2605.21801v1 Announce Type: cross Abstract: Post-training has become central to improving reasoning and alignment in large language models, where critic-free models enable scalable learning from model-generated outputs but lack principled mechanisms to distinguish informati…

报道来源 [1]

为何语义熵失效：面向策略优化的几何感知和校准不确定性

相关实体

相关话题