PulseAugur
实时 13:37:15
中文(ZH) 网易有道首发14语种零口音语音克隆模型,无需参考文本即可复刻任意音色

网易有道发布开源14语声纹克隆TTS模型

网易有道推出了Confucius4-TTS,这是一款支持14种语言的新型大型TTS引擎。该引擎的特点是能够通过零样本学习(zero-shot learning)进行声音克隆,仅需3秒音频,无需参考文本即可复刻说话者的语调和情感。该模型完全开源,权重和工具均可用于本地部署,旨在降低数字人、跨语言交流等领域的创作者和开发者的成本和门槛。 AI

影响 实现低成本、高质量的声音克隆和跨语言合成,可能加速在数字内容创作和全球交流中的应用。

排序理由 Frontier-lab模型发布,附带系统卡[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 雷峰网 (Leiphone) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

网易有道发布开源14语声纹克隆TTS模型

报道来源 [1]

  1. 雷峰网 (Leiphone) TIER_1 中文(ZH) ·

    NetEase Youdao first releases 14-language zero-accent voice cloning model, able to replicate any voice without reference text

    <p>当前,人工智能作为培育新质生产力的核心引擎,已上升为国家战略层面。国务院《关于深入实施“人工智能+”行动的意见》明确提出,要加快AI核心技术自主创新、降低产业落地门槛、构建开放共享的国产AI生态,推动人工智能与千行百业深度融合。</p><p>在这一战略背景下,网易有道正式推出“子曰4.0”大模型体系TTS语音合成引擎——Confucius4-TTS,并已面向全球用户开放。近日,该引擎凭借全球首个不依赖参考文本即可实现14语种无口音跨语种语音克隆的开创性突破引发行业高度关注,为数字人、跨境传播、智能教育等产业提供国产化、低成本语音克隆功能。</p><…