PulseAugur
实时 15:15:21

新的CPPO方法通过探索多种策略来提升代码生成能力

研究人员推出了一种名为协调Pass@K策略优化(CPPO)的新方法,通过同时探索多种不同的算法策略来增强代码生成能力。与抽取独立样本的标准方法不同,CPPO训练一个联合策略,其中规划器提出$K=4$个备选方法,共享求解器尝试为每个方法找到解决方案。这种协调探索在APPS、CodeContests和LiveCodeBench-v6等多个基准测试中,显著提高了pass@K指标。 AI

影响 这种协调策略探索有望带来更强大、更多样化的代码生成能力,尤其是在竞争性编程场景中。

排序理由 该集群包含一篇详细介绍代码推理和生成新方法的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的CPPO方法通过探索多种策略来提升代码生成能力

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Yilong Li, Suman Banerjee, Tong Che ·

    扩大捕捞范围:用于代码推理的协调Pass@K策略优化

    arXiv:2605.27000v1 Announce Type: cross Abstract: Repeated sampling with a verifier is the standard way to allocate test-time compute for code generation, with pass@$K$ as the canonical metric. Yet the standard policy class draws $K$ independent samples from a single answer distr…

  2. arXiv cs.AI TIER_1 English(EN) · Tong Che ·

    扩大网络:用于代码推理的协调 Pass@K 策略优化

    Repeated sampling with a verifier is the standard way to allocate test-time compute for code generation, with pass@$K$ as the canonical metric. Yet the standard policy class draws $K$ independent samples from a single answer distribution, so attempts often collapse onto near-dupl…