English(EN) Support-Constrained RL Enables Real-World Policy Improvement without Real-World Experience

新的SCORE框架通过约束模拟训练改进机器人策略

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了一个名为SCORE（Support-Constrained Off-Domain REinforcement）的新框架，用于改进机器人策略。该方法允许在模拟中进行强化学习，以提高真实世界机器人的性能，而无需进行广泛的真实世界训练。SCORE将模拟训练约束在预训练生成策略的能力范围内，确保学习到的行为可以迁移到硬件上，并避免不安全地利用模拟中的不准确之处。该框架在各种机器人操作任务中都显著提高了成功率和效率。 AI

影响通过利用模拟，能够更有效、更安全地改进真实世界机器人策略。

排序理由这是一篇详细介绍机器人强化学习新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Raymond Yu, William Huey, Mustafa Mukadam, Anusha Nagabandi, Abhishek Gupta · 2026-06-29 04:00

Support-Constrained RL Enables Real-World Policy Improvement without Real-World Experience

arXiv:2606.27475v1 Announce Type: cross Abstract: Robots trained on real world data tend to be imprecise, slow, and brittle to perturbations. Improving these policies with reinforcement learning (RL) is an appealing alternative, but this process often requires expensive training …

报道来源 [1]

Support-Constrained RL Enables Real-World Policy Improvement without Real-World Experience

相关实体

相关话题