研究人员开发了一个名为 PRM-PBE 的新框架,以增强大型语言模型 (LLM) 在编程示例 (PBE) 任务中的能力。该方法解决了当前 LLM 在 PBE 中的局限性,由于缺乏对中间推理过程的细粒度监督,它们通常难以从有限的输入输出示例中推断出底层程序逻辑。PRM-PBE 利用在反馈引导的推理树上训练的进程奖励模型 (PRM) 来评估中间步骤的可靠性,并结合三阶段课程学习方法和 PPO 优化来进行程序合成。在多个基准测试上的实验表明,即使使用 DeepSeek-Coder-V2 和 Claude-3.5-Sonnet 等先进模型,该方法也比现有方法有了显著改进。 AI
影响 通过提供中间推理监督来增强大型语言模型的程序合成能力,有可能提高在复杂编码任务中的可靠性。
排序理由 该集群描述了一篇新的研究论文和改进大型语言模型在特定任务 (PBE) 上性能的框架,包括实验验证。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude-3.5-Sonnet
- DeepSeek-Coder-V2
- Gemini-1.5-Flash
- GPT-4o
- Llama-3
- LLM
- PRM-PBE
- Process Reward Model
- Programming-by-Example
- Qwen2.5-Coder
- Qwen3
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →