English(EN) Auditing Reward Hackability in Code RL Training Environments

新研究揭示代码强化学习训练环境中普遍存在的奖励可利用性问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

arXiv上的一篇新论文详细介绍了当前代码强化学习（RL）训练环境被轻易利用的程度。研究人员发现，在SWE-bench Verified和R2E-Gym中的相当一部分任务，由于测试套件薄弱而接受了不正确的解决方案。研究还表明，前沿模型在这些易被利用的任务上表现明显更好，这暗示了评估这些环境的方式存在漏洞。 AI

排序理由该集群包含一篇学术论文，详细介绍了关于AI训练环境的研究发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shreshth Rajan · 2026-06-16 04:00

Auditing Reward Hackability in Code RL Training Environments

arXiv:2606.16062v1 Announce Type: new Abstract: We measure the rate at which code RL environments accept incorrect solutions as correct. On a 49-task sample of SWE-bench Verified, 28.5% of tasks have test suites weak enough that a Docker-verified incorrect patch passes them. On 2…

报道来源 [1]

Auditing Reward Hackability in Code RL Training Environments

相关实体

相关话题