研究人员推出了 ZONOS2 8B,这是一款在自然度、韵律和语音克隆能力方面取得重大进展的新文本转语音(TTS)模型。该模型采用混合专家(MoE)架构,参数量高达 80 亿,提高了推理速度和吞吐量。其训练语料库已扩展到 600 万小时以上,简化的训练后处理流程进一步提高了其在质量和说话人相似度指标上的表现。ZONOS2 8B 在包括其自身的 TTS 新基准 ZTTS1-Eval 在内的各种基准测试中均取得了具有竞争力的结果,同时保持了高效的流式延迟。模型权重和推理代码根据 Apache 2.0 许可公开可用。 AI
影响 此次发布提供了一个具有更高自然度和语音克隆能力的先进 TTS 模型,可能影响需要高保真度合成语音的应用。
排序理由 该集群描述了一个带有技术报告和公开可用权重的新模型发布,符合研究类别。[lever_c_降级自研究:ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →