研究人员开发了UniVoice,一个能够生成语音和歌声的新型统一模型。该模型采用带有Diffusion Transformer骨干的条件流匹配方法,将条件分解为内容、旋律和音色。对于语音,空旋律标记允许自然韵律推断;对于歌声,明确的MIDI音符序列提供旋律控制。UniVoice在广泛的语音和歌声数据集上进行训练,在两个领域都展现出与专用系统相比具有竞争力的性能。 AI
影响 这个统一模型可以简化语音和歌声内容的先进语音合成工具的开发。
排序理由 这是一篇详细介绍音频生成新模型架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →