English(EN) MAVIN: Multi-Shot Audio-Visual Generation with Narrative Control

MAVIN框架为多镜头视听生成提供叙事控制

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出MAVIN，一个旨在解决具有叙事控制的连贯多镜头视听内容生成挑战的新框架。MAVIN通过采用边界感知注意力和ID感知传播来解决时间失配和主体一致性有限等问题。该框架还包括一个多代理脚本管道，用于创建详细的字幕，并引入了MAVINSet，一个用于训练和评估多镜头视听生成的新数据集。该系统旨在将生成模型整合到专业电影制作流程中。 AI

影响在生成视频中实现更复杂的叙事控制，可能简化专业电影制作工作流程。

排序理由该条目描述了一篇关于视听生成新框架和数据集的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Kaiqi Liu, Yunyao Mao, Ziqi Cai, Zheng Geng, Jing Wang, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Shuchen Weng, Boxin Shi · 2026-06-30 04:00

MAVIN：具有叙事控制的多轮音视频生成

arXiv:2606.29473v1 Announce Type: new Abstract: While recent generative models produce high-fidelity videos, they struggle with the complex narrative control required for coherent multi-shot audio-visual generation. Existing methods suffer from temporal misalignment, limited cont…

报道来源 [1]

MAVIN：具有叙事控制的多轮音视频生成

相关实体

相关话题