PulseAugur
实时 07:59:45
实体 HMMT26

HMMT26

PulseAugur coverage of HMMT26 — every cluster mentioning HMMT26 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_109549 ·

    新的SR-PPO方法通过单次采样改进语言模型的强化学习

    研究人员开发了一种名为单次采样近端策略优化(SR-PPO)的新型强化学习技术,以解决训练语言模型的计算成本问题。该方法使用蒙特卡洛评论员从每次提示的单次采样中估计 token 级别的优势,而不是依赖多个可能发散的采样轨迹。评论员预测 Pass@k 成功概率,通过关注具有挑战性的前缀来提供更具选择性的学习信号。SR-PPO 在 HMMT26 和 AIME24 等数学推理基准上展示了稳定的学习和更高的成功率。