English(EN) Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Omni2Sound 模型通过新数据集统一视频、文本到音频生成

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员开发了Omni2Sound，一个统一的扩散模型，能够从视频、文本或两者的组合生成音频。该模型通过引入SoundAtlas（一个具有紧密对齐音频字幕的大规模数据集）和新颖的三阶段渐进式训练计划，解决了数据稀缺和跨任务竞争的挑战。Omni2Sound在一个模型内实现了视频到音频、文本到音频以及视频-文本到音频生成任务的最先进性能，展示了强大的泛化能力。 AI

影响引入了一个统一的多模态音频生成模型，可能简化内容创作者和研究人员的工作流程。

排序理由这是一篇介绍音频生成新模型和数据集的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yusheng Dai, Zehua Chen, Yuxuan Jiang, Baolong Gao, Qiuhong Ke, Jianfei Cai, Jun Zhu · 2026-04-30 04:00

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

arXiv:2601.02731v3 Announce Type: replace-cross Abstract: Training a unified model integrating video-to-audio (V2A), text-to-audio (T2A), and joint video-text-to-audio (VT2A) generation offers significant application flexibility, yet faces two unexplored foundational challenges: …

报道来源 [1]

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

相关实体

相关话题