PulseAugur
实时 11:49:19
实体 R2E-Gym

R2E-Gym

PulseAugur coverage of R2E-Gym — every cluster mentioning R2E-Gym across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93154 ·

    新研究揭示代码强化学习训练环境中普遍存在的奖励可利用性问题

    arXiv上的一篇新论文详细介绍了当前代码强化学习(RL)训练环境被轻易利用的程度。研究人员发现,在SWE-bench Verified和R2E-Gym中的相当一部分任务,由于测试套件薄弱而接受了不正确的解决方案。研究还表明,前沿模型在这些易被利用的任务上表现明显更好,这暗示了评估这些环境的方式存在漏洞。