English(EN) Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic 奖励提高了世界模型训练的准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员引入了一种新颖的内在奖励机制，称为 Curiosity-Critic，用于训练世界模型。该方法将其奖励建立在世界模型累积预测误差的改进之上，提供了一个可处理的每步代理。学习到的 Critic 在线估计误差基线，将探索引导至可学习的转换，并区分可约和不可约的预测误差。实验表明，Curiosity-Critic 在训练速度和世界模型准确性方面均优于现有方法。 AI

影响引入了一种新的内在奖励机制用于世界模型训练，提高了学习速度和准确性。

排序理由这是一篇详细介绍世界模型新训练方法的学术论文。

在 arXiv stat.ML 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv stat.ML TIER_1 English(EN) · Vin Bhaskara, Haicheng Wang · 2026-04-30 04:00

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

arXiv:2604.18701v2 Announce Type: replace-cross Abstract: Local prediction-error-based curiosity rewards focus on the current transition without considering the world model's cumulative prediction error across all visited transitions. We introduce Curiosity-Critic, which grounds …

报道来源 [1]

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

相关实体

相关话题