实体 Verse-Bench

Verse-Bench

PulseAugur coverage of Verse-Bench — every cluster mentioning Verse-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_60213 · May 29 · 18:35

NAVA模型根据文本提示生成同步的音频和视频

一个名为NAVA的、拥有63亿参数的新模型已发布，它能够根据单一文本提示生成同步的音频和视频。它具有多说话人语音控制和图像条件延续功能。NAVA采用Align-then-Fuse MMDiT架构，在融合上下文之前建立音视频对应关系，在Verse-Bench基准测试中取得了最先进的成果，且参数量远少于现有的开源模型。
TOOL · CL_68730 · May 29 · 02:17

百度发布NAVA，一个拥有63亿参数的视听生成模型

百度发布了NAVA，一个拥有63亿参数的模型，能够根据单一文本提示生成同步的音频和视频。该模型采用了Align-then-Fuse MMDiT架构，在视听同步基准测试中取得了最先进的性能。NAVA可以在大约一分钟内生成720p、一分钟长的视频和立体声音频，并能精确控制说话者的声音音色。
RESEARCH · CL_53474 · May 25 · 00:00

新框架和基准推动视听生成发展

研究人员推出了OmniCustom，一个可以同时从参考图像和音频定制视频身份和音频音色的框架。这个基于DiT的模型使用独立的LoRA模块进行身份和音色控制，并通过对比学习目标进行增强。此外，NAVA框架为联合生成提供了原生的视听对齐，使用一个6.3B参数的模型提高了同步性和音色可控性。另外，LongAV-Compass已被开发为一个基准，用于评估跨越各种条件模态的分钟级视听生成，评估长时间内的连贯性和对齐性。

NAVA模型根据文本提示生成同步的音频和视频

百度发布NAVA，一个拥有63亿参数的视听生成模型

新框架和基准推动视听生成发展