PulseAugur
实时 14:31:51
实体 Future-KL Regularized Policy Optimization

Future-KL Regularized Policy Optimization

PulseAugur coverage of Future-KL Regularized Policy Optimization — every cluster mentioning Future-KL Regularized Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_51162 ·

    新的FRPO方法在无critic的情况下改进了LLM训练

    研究人员开发了未来KL正则化策略优化(FRPO),一种无需critic模型即可改进大型语言模型(LLM)后训练的新颖方法。FRPO通过引入因果未来KL校正来解决组相对策略优化(GRPO)的局限性,该校正考虑了局部token惩罚所遗漏的自回归KL正则化。这种方法增强了策略梯度信号,并在数学推理任务上展示了pass@16的改进,同时与现有方法相比保持了更高的熵和更低的策略漂移。