PulseAugur
实时 15:29:42
Italiano(IT) Nava - A 6.3B audio-video model .

NAVA模型根据文本提示生成同步的音频和视频

一个名为NAVA的、拥有63亿参数的新模型已发布,它能够根据单一文本提示生成同步的音频和视频。它具有多说话人语音控制和图像条件延续功能。NAVA采用Align-then-Fuse MMDiT架构,在融合上下文之前建立音视频对应关系,在Verse-Bench基准测试中取得了最先进的成果,且参数量远少于现有的开源模型。 AI

影响 该模型推动了同步音视频生成技术的发展,可能对内容创作和媒体合成产生影响。

排序理由 该集群描述了一个新AI模型的发布,包括其技术细节和基准性能。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/StableDiffusion 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

NAVA模型根据文本提示生成同步的音频和视频

报道来源 [1]

  1. r/StableDiffusion TIER_2 Italiano(IT) · /u/AgeNo5351 ·

    Nava - 一个63亿参数的音视频模型。

    <table> <tr><td> <a href="https://www.reddit.com/r/StableDiffusion/comments/1trb93v/nava_a_63b_audiovideo_model/"> <img alt="Nava - A 6.3B audio-video model ." src="https://external-preview.redd.it/eDRlYmJhMGxlNDRoMbXMqXLWXT2mbb7jB8JmHoTjuf_SMCFFPQRD1fFDsUU9.png?width=640&amp;cro…