研究人员开发了ELVIS,一种用于强化学习中长时域视觉规划的新方法,该方法使用高斯混合模型预测控制器在扩展的rollout中维护多个假设。该方法在一个新论文中进行了详细介绍,还包含了一个不确定性感知的回报机制来稳定想象并限制复合误差。ELVIS在视觉控制任务上展示了最先进的性能,并有望在有遮挡的现实世界应用中发挥作用。另外,另一篇论文介绍了TRAP,一种通过操纵想象轨迹的排名来针对世界模型的后门攻击,该攻击已被证明会降低DreamerV3和TD-MPC2等代理的性能。 AI
影响 长时域规划的新方法和对世界模型的安全评估可以提升代理能力和安全性。
排序理由 两篇新的arXiv论文详细介绍了强化学习规划的进展,并引入了一种针对世界模型的新型攻击向量。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →