English(EN) Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations

机器人通过有针对性的提问来学习更好的奖励

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-25 04:00

研究人员开发了一个新框架，以帮助机器人从人类演示中更准确地学习奖励函数。该系统通过分析行为的变化来识别演示中不明确的特征，指出机器人需要更多指导的地方。然后，它会提示用户进行有针对性的纠正性演示，与随机查询或被动数据收集相比，显著提高了奖励恢复能力并减少了错位。 AI

影响通过实现有针对性的反馈，改善了机器人从人类演示中学习的能力，减少了错位。

排序理由该集群包含一篇详细介绍机器人学习新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Helena Merker, Nick Walker, Andreea Bobu · 2026-05-25 04:00

懂得提问的机器人：通过定向解释恢复错位的奖励

arXiv:2605.22986v1 Announce Type: cross Abstract: Learning reward functions from demonstrations assumes that demonstrations provide adequate supervision over all features -- or task-relevant aspects of behavior. In practice, demonstrations are often imperfect: humans may under-em…