English(EN) UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

UniSonate模型统一了语音、音乐和音效的生成

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-24 04:26

研究人员开发了UniSonate，一个新颖的统一框架，用于通过自然语言指令生成语音、音乐和音效。该模型通过协调结构化语义表示与非结构化声学纹理，解决了生成式音频的碎片化问题。UniSonate采用动态令牌注入机制和多模态扩散Transformer (MM-DiT)，在文本到语音和文本到音乐任务中实现了精确的时长控制和最先进的结果，同时在文本到音频生成方面也表现出竞争力。 AI

影响统一了不同的音频生成任务，可能简化内容创作者和研究人员的工作流程。

排序理由介绍新型统一音频生成模型的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Chunyu Qiang, Xiaopeng Wang, Kang Yin, Yuzhe Liang, Yuxin Guo, Teng Ma, Ziyu Zhang, Tianrui Wang, Cheng Gong, Yushen Chen, Ruibo Fu, Chen Zhang, Longbiao Wang, Jianwu Dang · 2026-04-27 04:00

UniSonate：一个用于文本指令驱动的语音、音乐和音效生成统一模型

arXiv:2604.22209v1 Announce Type: cross Abstract: Generative audio modeling has largely been fragmented into specialized tasks, text-to-speech (TTS), text-to-music (TTM), and text-to-audio (TTA), each operating under heterogeneous control paradigms. Unifying these modalities rema…
arXiv cs.CL TIER_1 English(EN) · Jianwu Dang · 2026-04-24 04:26

UniSonate：一个用于文本指令驱动的语音、音乐和音效生成统一模型

Generative audio modeling has largely been fragmented into specialized tasks, text-to-speech (TTS), text-to-music (TTM), and text-to-audio (TTA), each operating under heterogeneous control paradigms. Unifying these modalities remains a fundamental challenge due to the intrinsic d…

报道来源 [2]

UniSonate：一个用于文本指令驱动的语音、音乐和音效生成统一模型

UniSonate：一个用于文本指令驱动的语音、音乐和音效生成统一模型

相关实体

相关话题