中文(ZH) ICML 2026：从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督

新框架增强大型语言模型从示例合成程序的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 05:47

研究人员开发了一个名为 PRM-PBE 的新框架，以增强大型语言模型 (LLM) 在编程示例 (PBE) 任务中的能力。该方法解决了当前 LLM 在 PBE 中的局限性，由于缺乏对中间推理过程的细粒度监督，它们通常难以从有限的输入输出示例中推断出底层程序逻辑。PRM-PBE 利用在反馈引导的推理树上训练的进程奖励模型 (PRM) 来评估中间步骤的可靠性，并结合三阶段课程学习方法和 PPO 优化来进行程序合成。在多个基准测试上的实验表明，即使使用 DeepSeek-Coder-V2 和 Claude-3.5-Sonnet 等先进模型，该方法也比现有方法有了显著改进。 AI

影响通过提供中间推理监督来增强大型语言模型的程序合成能力，有可能提高在复杂编码任务中的可靠性。

排序理由该集群描述了一篇新的研究论文和改进大型语言模型在特定任务 (PBE) 上性能的框架，包括实验验证。[lever_c_demoted from research: ic=1 ai=1.0]

在雷峰网 (Leiphone) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

雷峰网 (Leiphone) TIER_1 中文(ZH) · 2026-06-16 05:47

ICML 2026: Automatically Generating Programs from Input-Output Examples - Reinforcement Learning Provides Reasoning Process Supervision for Large Model Programming-By-Example Tasks

<section label="edit by 135editor"><section><section style="margin: 10px auto;"><section><section style="display: flex;"><section><section style="width: 8px;"><svg viewBox="0 0 13.99 22" xmlns="http://www.w3.org/2000/svg"><g><g><path d="M0,22V18.08l6.89-4.26,4.39-2.75v-.19L6.89,8…

报道来源 [1]

ICML 2026: Automatically Generating Programs from Input-Output Examples - Reinforcement Learning Provides Reasoning Process Supervision for Large Model Programming-By-Example Tasks

相关实体

相关话题