研究人员开发了一个名为几何感知校准策略优化(GCPO)的新框架,以改进大型语言模型的后训练方法。目前使用语义熵作为不确定性信号的方法在优化中的影响不稳定且不明确。GCPO通过整合几何感知度量和基于奖励的校准来解决这个问题,以更好地捕捉语义分歧并将不确定性与学习信号强度对齐。实验表明,GCPO能更准确地跟踪梯度变化,并持续提升后训练性能。 AI
影响 这项研究通过在后训练中更好地估计不确定性,为改进LLM的推理和对齐提供了一种更符合原则的方法。
排序理由 该集群包含一篇提出LLM后训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →