网易有道推出了Confucius4-TTS,这是一款支持14种语言的新型大型TTS引擎。该引擎的特点是能够通过零样本学习(zero-shot learning)进行声音克隆,仅需3秒音频,无需参考文本即可复刻说话者的语调和情感。该模型完全开源,权重和工具均可用于本地部署,旨在降低数字人、跨语言交流等领域的创作者和开发者的成本和门槛。 AI
影响 实现低成本、高质量的声音克隆和跨语言合成,可能加速在数字内容创作和全球交流中的应用。
排序理由 Frontier-lab模型发布,附带系统卡[lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →