PulseAugur
实时 07:41:08
实体 Yusheng Dai

Yusheng Dai

PulseAugur coverage of Yusheng Dai — every cluster mentioning Yusheng Dai across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_10165 ·

    Omni2Sound 模型通过新数据集统一视频、文本到音频生成

    研究人员开发了Omni2Sound,一个统一的扩散模型,能够从视频、文本或两者的组合生成音频。该模型通过引入SoundAtlas(一个具有紧密对齐音频字幕的大规模数据集)和新颖的三阶段渐进式训练计划,解决了数据稀缺和跨任务竞争的挑战。Omni2Sound在一个模型内实现了视频到音频、文本到音频以及视频-文本到音频生成任务的最先进性能,展示了强大的泛化能力。