研究人员开发了 Chatterbox-Flash,这是一种利用先验校准块扩散的新型零样本文本到语音模型。该方法将预训练的自回归 TTS 解码器微调为块扩散解码器,允许在块内并行生成令牌,同时保持流式传输能力。该模型通过采用先验校准评分和自适应早期解码计划等推理时技术来解决质量下降问题,实现了与现有基线相当的高保真合成,并提高了流式传输性能。 AI
影响 引入了一种新的零样本 TTS 方法,提高了合成质量和流式传输性能。
排序理由 这是一篇描述新模型和方法论的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →