Italiano(IT) Nava - A 6.3B audio-video model .

NAVA模型根据文本提示生成同步的音频和视频

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 18:35

一个名为NAVA的、拥有63亿参数的新模型已发布，它能够根据单一文本提示生成同步的音频和视频。它具有多说话人语音控制和图像条件延续功能。NAVA采用Align-then-Fuse MMDiT架构，在融合上下文之前建立音视频对应关系，在Verse-Bench基准测试中取得了最先进的成果，且参数量远少于现有的开源模型。 AI

影响该模型推动了同步音视频生成技术的发展，可能对内容创作和媒体合成产生影响。

排序理由该集群描述了一个新AI模型的发布，包括其技术细节和基准性能。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/StableDiffusion 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/StableDiffusion TIER_2 Italiano(IT) · /u/AgeNo5351 · 2026-05-29 18:35

Nava - 一个63亿参数的音视频模型。

<table> <tr><td> <a href="https://www.reddit.com/r/StableDiffusion/comments/1trb93v/nava_a_63b_audiovideo_model/"> <img alt="Nava - A 6.3B audio-video model ." src="https://external-preview.redd.it/eDRlYmJhMGxlNDRoMbXMqXLWXT2mbb7jB8JmHoTjuf_SMCFFPQRD1fFDsUU9.png?width=640&cro…

报道来源 [1]

Nava - 一个63亿参数的音视频模型。

相关话题