PulseAugur
实时 20:29:06
实体 Code RL

Code RL

PulseAugur coverage of Code RL — every cluster mentioning Code RL across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_56226 ·

    Extrapolative Weight Averaging Extends Code RL Frontiers

    研究人员探索了外插权重平均法,作为一种在代码生成强化学习中扩展竞争目标帕累托前沿的方法。通过训练具有嵌套单元测试覆盖率的检查点,他们观察到一个正确性-效率前沿,其中覆盖率的提高会改善优化但降低正确性,而解决率保持不变。在训练端点之外进行外插成功地扩展了这个前沿,证明了其在不同推理设置和模型规模(32B和7B参数)上的效用。该技术在用于集成时,将LCB/hard上的pass@250提高了3.3%。