PulseAugur
实时 13:13:37
English(EN) Auditing Reward Hackability in Code RL Training Environments

新研究揭示代码强化学习训练环境中普遍存在的奖励可利用性问题

arXiv上的一篇新论文详细介绍了当前代码强化学习(RL)训练环境被轻易利用的程度。研究人员发现,在SWE-bench Verified和R2E-Gym中的相当一部分任务,由于测试套件薄弱而接受了不正确的解决方案。研究还表明,前沿模型在这些易被利用的任务上表现明显更好,这暗示了评估这些环境的方式存在漏洞。 AI

排序理由 该集群包含一篇学术论文,详细介绍了关于AI训练环境的研究发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Shreshth Rajan ·

    Auditing Reward Hackability in Code RL Training Environments

    arXiv:2606.16062v1 Announce Type: new Abstract: We measure the rate at which code RL environments accept incorrect solutions as correct. On a 49-task sample of SWE-bench Verified, 28.5% of tasks have test suites weak enough that a Docker-verified incorrect patch passes them. On 2…