PulseAugur
实时 16:54:47
实体 Hapo

Hapo

PulseAugur coverage of Hapo — every cluster mentioning Hapo across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_53799 ·

    新的RLVR方法通过首个Token多样化和信用分配来增强LLM推理能力

    两篇新的研究论文探讨了改进用于训练推理模型的RLVR(带可验证奖励的强化学习)的方法。第一篇论文介绍了REFT(首个Token多样化的Rollout探索),一种通过关注推理标记后的首个Token来使Rollout多样化的技术,从而在各种模型规模和难度级别上提高了性能。第二篇论文提出了HAPO(事后追溯感知策略优化),该方法通过基于奖励极性和Token熵分解Token更新来分析Token更新,表明持续的推理收益集中在高熵象限,并在数学推…