研究人员推出了 SANA-WM,一个能够生成具有精确相机控制的、一分钟长、720p 的开源世界模型。该模型在视觉质量上可与大型工业系统相媲美,同时显著提高了效率。关键创新包括用于长上下文建模的混合线性注意力机制、用于精确相机轨迹遵循的双分支系统,以及用于增强视频一致性的两阶段生成流程。SANA-WM 在数据使用、训练计算和推理硬件方面表现出卓越的效率,能够在单个 GPU 上进行生成。 AI
影响 能够高效生成具有精确相机控制的长格式、高保真视频内容,可能对媒体制作和模拟产生影响。
排序理由 该集群包含一篇详细介绍新模型及其技术规格的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →