PulseAugur
实时 23:44:09
实体 KL-Cov regularization

KL-Cov regularization

PulseAugur coverage of KL-Cov regularization — every cluster mentioning KL-Cov regularization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_43974 ·

    新的RLIF框架使用多奖励信号来改进LLM推理

    研究人员开发了一种使用内部反馈强化学习(RLIF)训练大型语言模型的新框架。这种多奖励方法将训练信号分解为来自集群投票的答案级奖励和基于代币自我确定性的完成级奖励。该方法结合了基于GDPO的归一化和KL-Cov正则化,以增强稳定性和防止崩溃,在没有外部真实监督的情况下实现了接近监督方法的性能。