研究人员引入了一种新颖的内在奖励机制,称为 Curiosity-Critic,用于训练世界模型。该方法将其奖励建立在世界模型累积预测误差的改进之上,提供了一个可处理的每步代理。学习到的 Critic 在线估计误差基线,将探索引导至可学习的转换,并区分可约和不可约的预测误差。实验表明,Curiosity-Critic 在训练速度和世界模型准确性方面均优于现有方法。 AI
影响 引入了一种新的内在奖励机制用于世界模型训练,提高了学习速度和准确性。
排序理由 这是一篇详细介绍世界模型新训练方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →