PulseAugur
实时 11:41:05
实体 FlatSounds

FlatSounds

PulseAugur coverage of FlatSounds — every cluster mentioning FlatSounds across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_53474 ·

    新框架和基准推动视听生成发展

    研究人员推出了OmniCustom,一个可以同时从参考图像和音频定制视频身份和音频音色的框架。这个基于DiT的模型使用独立的LoRA模块进行身份和音色控制,并通过对比学习目标进行增强。此外,NAVA框架为联合生成提供了原生的视听对齐,使用一个6.3B参数的模型提高了同步性和音色可控性。另外,LongAV-Compass已被开发为一个基准,用于评估跨越各种条件模态的分钟级视听生成,评估长时间内的连贯性和对齐性。