研究人员推出dots.tts,一个拥有20亿参数、在连续潜在空间中运行的文本到语音模型。该模型包含多项创新,包括用于结构化语音表示的AudioVAE、用于提高一致性的全历史条件以及用于增强鲁棒性的自纠正后训练。Dots.tts在Seed-TTS-Eval等基准测试中取得了最先进的成果,并通过MeanFlow蒸馏实现了高效、低延迟的生成。 AI
影响 在多语言TTS基准测试中设定了新的SOTA,可能提高AI应用中的语音克隆和情感表达能力。
排序理由 该集群包含一份技术报告,详细介绍了一个具有性能基准的新文本到语音模型。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →