研究人员开发了CRAX,一个用于强化学习(RL)代理的新基准测试,旨在加速真实世界应用中的安全测试。CRAX基于MuJoCo XLA物理引擎构建,与现有基准测试相比,速度提高了100倍,能够进行更广泛的实验。该基准测试包含六个环境套件和三个不同难度级别的特定代理任务。对六种流行的安全RL方法的初步评估显示,没有一种方法能够持续优于其他方法,突显了性能和安全之间的权衡,并表明课程学习和安全迁移可以在更具挑战性的场景中提高结果。 AI
影响 能够对真实世界的RL应用进行更快、更广泛的安全测试,有可能加速在机器人和自动驾驶领域的部署。
排序理由 在arXiv上发布了新的基准测试论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →