研究人员发布了 SANA-WM,一个能够生成时长一分钟、分辨率为 720p 的视频的开源世界模型。该扩散 Transformer 模型采用了混合线性注意力机制和双分支架构来实现精确的相机控制。该模型还包含一个两阶段生成流程,并使用精炼器来增强质量和时间一致性,它使用具有度量尺度 6-DoF 相机姿态的强大标注流程进行训练。 AI
影响 能够创建具有精确相机控制的更长、更高保真度的视频,可能对内容生成和模拟产生影响。
排序理由 该集群描述了一个带有相应论文的新开源模型的发布,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Trending Models 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →