研究人员开发了 StepCodeReasoner,一个旨在通过关注中间执行状态而非仅仅最终输出来改进代码推理的新框架。该方法使用结构化打印语句创建执行跟踪锚点,训练模型预测每一步的运行时状态。该框架还包含一种新颖的强化学习算法 Bi-Level GRPO,用于在执行路径之间以及路径内部进行更好的信用分配。实验表明,StepCodeReasoner 在代码推理基准测试中取得了最先进的性能,其 7B 模型超越了 GPT-4o 和之前的 CodeReasoner 基线等模型。 AI
影响 这种新的代码推理方法可能带来更可靠的 AI 代码生成和调试工具。
排序理由 该集群包含一篇详细介绍新方法和基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →