一个名为NAVA的、拥有63亿参数的新模型已发布,它能够根据单一文本提示生成同步的音频和视频。它具有多说话人语音控制和图像条件延续功能。NAVA采用Align-then-Fuse MMDiT架构,在融合上下文之前建立音视频对应关系,在Verse-Bench基准测试中取得了最先进的成果,且参数量远少于现有的开源模型。 AI
影响 该模型推动了同步音视频生成技术的发展,可能对内容创作和媒体合成产生影响。
排序理由 该集群描述了一个新AI模型的发布,包括其技术细节和基准性能。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →