PulseAugur
实时 16:56:05
实体 Coordinated Pass@K Policy Optimization

Coordinated Pass@K Policy Optimization

PulseAugur coverage of Coordinated Pass@K Policy Optimization — every cluster mentioning Coordinated Pass@K Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_53559 ·

    新的CPPO方法通过探索多种策略来提升代码生成能力

    研究人员推出了一种名为协调Pass@K策略优化(CPPO)的新方法,通过同时探索多种不同的算法策略来增强代码生成能力。与抽取独立样本的标准方法不同,CPPO训练一个联合策略,其中规划器提出$K=4$个备选方法,共享求解器尝试为每个方法找到解决方案。这种协调探索在APPS、CodeContests和LiveCodeBench-v6等多个基准测试中,显著提高了pass@K指标。