研究人员推出了一种新颖的分层扩散框架 Vera,用于内容保留视频编辑。与重新生成整个视频的现有方法不同,Vera 专注于生成一个编辑层和一个 alpha 蒙版,然后将它们与原始视频合成。这种方法将创意编辑过程与保留未更改元素(如角色和背景)分离开来。该框架采用了 Transformer 混合架构,通过为每个层使用单独的 DiT 并通过联合自注意力进行通信来扩展文本到视频的 Diffusion Transformer (DiT)。Vera 在包含 486,000 帧的数据集上进行了训练,并在定量基准测试和人类研究中证明了其比领先的开源视频编辑模型更优越的内容保留能力。 AI
影响 这种新模型能够实现更复杂和可控的视频编辑,在应用创意更改的同时保留关键元素。
排序理由 该项目是一篇研究论文,详细介绍了用于视频编辑的新模型和数据集。[lever_c_research降级:ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Diffusion Transformer
- Gotit.pub
- Hugging Face
- Mixture-of-Transformers
- ScienceCast
- Vera
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →