English(EN) SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

SANA-WM 模型高效生成分钟级视频

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-14 17:58

研究人员推出了 SANA-WM，一个能够生成具有精确相机控制的、一分钟长、720p 的开源世界模型。该模型在视觉质量上可与大型工业系统相媲美，同时显著提高了效率。关键创新包括用于长上下文建模的混合线性注意力机制、用于精确相机轨迹遵循的双分支系统，以及用于增强视频一致性的两阶段生成流程。SANA-WM 在数据使用、训练计算和推理硬件方面表现出卓越的效率，能够在单个 GPU 上进行生成。 AI

影响能够高效生成具有精确相机控制的长格式、高保真视频内容，可能对媒体制作和模拟产生影响。

排序理由该集群包含一篇详细介绍新模型及其技术规格的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Enze Xie · 2026-05-14 17:58

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines …

报道来源 [1]

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

相关实体

相关话题