实体 sGPO

sGPO

PulseAugur coverage of sGPO — every cluster mentioning sGPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_79475 · Jun 7 · 21:47

新的 sGPO 策略将 RLVR 训练计算量降低了 3 倍

研究人员开发了一种名为排序分组策略优化 (sGPO) 的新训练策略，以提高具有可验证奖励的强化学习 (RLVR) 的效率。该方法使用少量的推理计算来识别查询难度，从而更好地分配训练资源。通过分析查询并调整训练组大小，sGPO 可显著减少计算浪费，并将总训练计算量最多降低三倍，同时保持或提高性能。