研究人员开发了 JaiTTS-v1.0,一个泰语语音克隆文本到语音模型,取得了最先进的成果,在短时语音生成方面,其词错误率(CER)为1.94%,超越了人类真实数据。该模型改编自VoxCPM,可以直接处理数字和泰英混合语,无需显式文本规范化。在人类评估中,JaiTTS-v1.0在绝大多数配对比较中优于商业旗舰模型。另外,另一项研究专注于科学语音的跨语言语音克隆,评估了基于OmniVoice的模型,并使用数据增强来提高可懂度,同时保持阿拉伯语、中文和法语之间的说话人相似性。 AI
影响 泰语语音克隆和跨语言语音合成的进步可以实现更自然、更易于访问的通信工具。
排序理由 该集群包含两篇arXiv论文,详细介绍了新的语音合成和语音克隆模型。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →