百度ERNIE团队发布NAVA视听生成模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 02:17

百度ERNIE团队发布了NAVA，一个拥有63亿参数的模型，能够根据单一文本提示生成同步的音频和视频。NAVA采用了Align-then-Fuse MMDiT架构，在Verse-Bench等音频-视频同步和视频质量基准测试中取得了最先进的性能。该模型可以在大约一分钟内生成一分钟的720p视频和同步音频，并提供精确的多音色控制和语言描述的摄像机控制等功能。 AI

影响在音频-视频同步基准测试中设定了新的SOTA（最先进水平），参数量更少，可能降低高质量视听生成的门槛。

排序理由来自重要AI实验室（百度ERNIE团队）的模型发布，附有论文和技术细节。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 Hugging Face Trending Models 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Trending Models TIER_1 Deutsch(DE) · ernie-research · 2026-05-29 02:17

ernie-research/NAVA

text-to-video · 104 downloads · 41 likes

报道来源 [1]

ernie-research/NAVA

相关实体

相关话题