百度发布NAVA，一个拥有63亿参数的视听生成模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 02:17

百度发布了NAVA，一个拥有63亿参数的模型，能够根据单一文本提示生成同步的音频和视频。该模型采用了Align-then-Fuse MMDiT架构，在视听同步基准测试中取得了最先进的性能。NAVA可以在大约一分钟内生成720p、一分钟长的视频和立体声音频，并能精确控制说话者的声音音色。 AI

影响以显著更少的参数数量，在视听同步基准测试中设定了新的SOTA。

排序理由该集群描述了一个新模型发布，附带相应的论文和基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Trending Models 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

百度发布NAVA，一个拥有63亿参数的视听生成模型

报道来源 [1]

Hugging Face Trending Models TIER_1 Bahasa(ID) · baidu · 2026-05-29 02:17

百度/NAVA

text-to-video · 159 downloads · 55 likes