PulseAugur
实时 14:08:31
English(EN) SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

SANA-WM 模型高效生成分钟级视频

研究人员推出了 SANA-WM,一个能够生成具有精确相机控制的、一分钟长、720p 的开源世界模型。该模型在视觉质量上可与大型工业系统相媲美,同时显著提高了效率。关键创新包括用于长上下文建模的混合线性注意力机制、用于精确相机轨迹遵循的双分支系统,以及用于增强视频一致性的两阶段生成流程。SANA-WM 在数据使用、训练计算和推理硬件方面表现出卓越的效率,能够在单个 GPU 上进行生成。 AI

影响 能够高效生成具有精确相机控制的长格式、高保真视频内容,可能对媒体制作和模拟产生影响。

排序理由 该集群包含一篇详细介绍新模型及其技术规格的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SANA-WM 模型高效生成分钟级视频

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Enze Xie ·

    SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

    We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines …