PulseAugur
实时 05:51:55
实体 Recode

Recode

PulseAugur coverage of Recode — every cluster mentioning Recode across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
关系
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_18865 ·

    ReCode框架通过奖励推理过程来增强AI代码生成

    研究人员开发了ReCode,一个新颖的强化学习框架,旨在通过关注推理过程来改进代码生成。该框架使用对比推理过程奖励学习(CRPL)在合成的推理变体上训练奖励模型,并使用一致性门控GRPO(CG-GRPO)来整合这些奖励,同时通过执行结果缓解奖励攻击。ReCode应用于一个7B模型时,比其基础版本提高了16.1%,并在各种基准测试上取得了与GPT-4-Turbo相当的性能。