实体 Group Sequence Policy Optimization

Group Sequence Policy Optimization

PulseAugur coverage of Group Sequence Policy Optimization — every cluster mentioning Group Sequence Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
模型发布 1

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_21953 · May 8 · 04:00

新的S-trace方法提高了RLVR的效率和信用分配

研究人员推出了一种名为选择性合格追踪（S-trace）的新方法，旨在增强大型语言模型在可验证奖励强化学习（RLVR）框架内的推理能力。这种新方法通过超越统一信用分配，解决了现有无批评者算法（如Group Relative Policy Optimization, GRPO）的局限性。S-trace选择性地屏蔽低熵标记，从而实现更高效的学习和细粒度的信用分配，并在Qwen3等模型上展示了卓越的性能和效率。

新的S-trace方法提高了RLVR的效率和信用分配