研究人员推出了 DreamX-World 1.0,一个通用交互式世界模型,能够生成具有场景持久性和相机控制的长时视频内容。该模型利用了新颖的数据引擎,结合了虚幻引擎渲染、游戏录制和真实世界视频,以及一种名为 E-PRoPE 的新位置编码方法来实现相机感知。DreamX-World 1.0 在八个 RTX 5090 GPU 上可达到 16 FPS,并且在总分上优于现有的 HY-WorldPlay 1.5 和 LingBot-World 等模型。 AI
影响 实现了更可控、更持久的长时视频生成,可能对创意产业和虚拟环境产生影响。
排序理由 该集群描述了一篇详细介绍用于视频生成的新型交互式世界模型的研究论文。
在 Hugging Face Daily Papers 阅读 →
- Diffusion Transformer
- DreamX-World 1.0
- E-PRoPE
- HY-WorldPlay 1.5
- LingBot-World
- RTX 5090
- Unreal Engine
- arXiv
- Hugging Face
- variational auto-encoder
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →