PulseAugur
实时 03:31:16
实体 Prefix Sampling

Prefix Sampling

PulseAugur coverage of Prefix Sampling — every cluster mentioning Prefix Sampling across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_20477 ·

    新的强化学习方法通过控制rollout通过率来优化智能体训练

    研究人员开发了一种名为前缀采样(PS)的新技术,以提高AI智能体强化学习(RL)的效率。该方法通过将rollout组引导至50%的通过率来解决因通过率倾斜而浪费计算资源的问题,从而最大化奖励熵和对比信号。在SWE-bench任务上,PS在Qwen3-14B上实现了2.01倍的速度提升,在Qwen3-32B上实现了1.55倍的速度提升,同时还提高了验证性能。