PulseAugur
实时 10:50:42
中文(ZH) ICML 2026:从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督

新框架增强大型语言模型从示例合成程序的能力

研究人员开发了一个名为 PRM-PBE 的新框架,以增强大型语言模型 (LLM) 在编程示例 (PBE) 任务中的能力。该方法解决了当前 LLM 在 PBE 中的局限性,由于缺乏对中间推理过程的细粒度监督,它们通常难以从有限的输入输出示例中推断出底层程序逻辑。PRM-PBE 利用在反馈引导的推理树上训练的进程奖励模型 (PRM) 来评估中间步骤的可靠性,并结合三阶段课程学习方法和 PPO 优化来进行程序合成。在多个基准测试上的实验表明,即使使用 DeepSeek-Coder-V2Claude-3.5-Sonnet 等先进模型,该方法也比现有方法有了显著改进。 AI

影响 通过提供中间推理监督来增强大型语言模型的程序合成能力,有可能提高在复杂编码任务中的可靠性。

排序理由 该集群描述了一篇新的研究论文和改进大型语言模型在特定任务 (PBE) 上性能的框架,包括实验验证。[lever_c_demoted from research: ic=1 ai=1.0]

在 雷峰网 (Leiphone) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新框架增强大型语言模型从示例合成程序的能力

报道来源 [1]

  1. 雷峰网 (Leiphone) TIER_1 中文(ZH) ·

    ICML 2026: Automatically Generating Programs from Input-Output Examples - Reinforcement Learning Provides Reasoning Process Supervision for Large Model Programming-By-Example Tasks

    <section label="edit by 135editor"><section><section style="margin: 10px auto;"><section><section style="display: flex;"><section><section style="width: 8px;"><svg viewBox="0 0 13.99 22" xmlns="http://www.w3.org/2000/svg"><g><g><path d="M0,22V18.08l6.89-4.26,4.39-2.75v-.19L6.89,8…