PulseAugur
实时 11:43:22
实体 sGPO

sGPO

PulseAugur coverage of sGPO — every cluster mentioning sGPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_79475 ·

    新的 sGPO 策略将 RLVR 训练计算量降低了 3 倍

    研究人员开发了一种名为排序分组策略优化 (sGPO) 的新训练策略,以提高具有可验证奖励的强化学习 (RLVR) 的效率。该方法使用少量的推理计算来识别查询难度,从而更好地分配训练资源。通过分析查询并调整训练组大小,sGPO 可显著减少计算浪费,并将总训练计算量最多降低三倍,同时保持或提高性能。