None Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics

新的 GPLD 方法提高了潜在世界模型的样本效率

作者 PulseAugur 编辑部 · [1 source] · 2026-05-25 04:00

研究人员推出了一种新的潜在世界模型正则化器——梯度惩罚潜在动力学 (GPLD)，适用于 DreamerV3 等模型。GPLD 通过对后验潜在分布应用雅可比惩罚，强制学习到的转移动力学具有局部平滑性。该方法在复杂运动和四足任务中表现出更高的样本效率和更一致的学习效果。 AI

影响这项研究介绍了一种提高潜在世界模型样本效率和学习一致性的方法，可能使强化学习应用受益。

排序理由该集群包含一篇详细介绍改进潜在世界模型新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 · Romil V. Sonigra (Texas A&M University), P. R. Kumar (Texas A&M University) · 2026-05-25 04:00

Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics

arXiv:2605.23089v1 Announce Type: cross Abstract: Model-based reinforcement learning improves sample efficiency by learning a world model. However, existing latent world models such as DreamerV3 do not explicitly enforce local smoothness in their learned transition dynamics, leav…