研究人员开发了一种方法来分析奖励函数如何影响自动驾驶代理的注意力机制。通过训练三个具有相同架构但奖励配置不同的基于Perceiver的代理,他们观察到代理的注意力分配直接与奖励内容相关。具体来说,因导航而获得奖励的代理比那些有接近度惩罚的代理更优先关注GPS路径标记,而连续的碰撞时间惩罚则在代理的监控行为中诱导了“学习到的警惕先验”。研究表明,注意力分析是验证安全关键型强化学习系统中奖励函数的预期表征行为的一种实用工具。 AI
影响 为安全关键型强化学习系统中的奖励函数行为验证提供了一种新的诊断工具。
排序理由 学术论文,详细介绍了自动驾驶强化学习的新方法和发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →