English(EN) UCM: Unified Modeling of Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

新的UCM框架通过改进的记忆和相机控制增强世界模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了UCM，一个旨在通过解决长期内容一致性和精确相机控制方面的挑战来改进世界模型的新框架。UCM利用时序感知位置编码扭曲机制和高效的双流扩散Transformer来实现高保真视频生成。该框架使用一种新颖的数据策展策略进行训练，该策略涉及超过50万个单目视频，在场景一致性和相机可控性方面表现优于现有方法。 AI

影响这项研究可能为训练AI代理和需要精确环境交互的应用带来更现实、更可控的模拟。

排序理由该集群包含一篇详细介绍新框架及其实验结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Songhai Zhang · 2026-06-30 04:00

UCM: Unified Modeling of Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

arXiv:2602.22960v2 Announce Type: replace Abstract: World models based on video generation demonstrate remarkable potential for simulating interactive environments yet suffer from persistent difficulties in two key areas: maintaining long-term content consistency when scenes are …

报道来源 [1]

UCM: Unified Modeling of Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

相关话题