PulseAugur
实时 03:40:08
English(EN) Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations

机器人通过有针对性的提问来学习更好的奖励

研究人员开发了一个新框架,以帮助机器人从人类演示中更准确地学习奖励函数。该系统通过分析行为的变化来识别演示中不明确的特征,指出机器人需要更多指导的地方。然后,它会提示用户进行有针对性的纠正性演示,与随机查询或被动数据收集相比,显著提高了奖励恢复能力并减少了错位。 AI

影响 通过实现有针对性的反馈,改善了机器人从人类演示中学习的能力,减少了错位。

排序理由 该集群包含一篇详细介绍机器人学习新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Helena Merker, Nick Walker, Andreea Bobu ·

    懂得提问的机器人:通过定向解释恢复错位的奖励

    arXiv:2605.22986v1 Announce Type: cross Abstract: Learning reward functions from demonstrations assumes that demonstrations provide adequate supervision over all features -- or task-relevant aspects of behavior. In practice, demonstrations are often imperfect: humans may under-em…