研究人员开发了一种新颖的语音转换框架,该框架使用WavLM表示上的K近邻(KNN)检索来对齐非并行语音数据。该方法从非并行源音频和目标音频构建合成训练对,从而能够在不需要显式对齐或并行语料库的情况下进行监督学习。该框架还包含一个说话人损失,以保持一致的目标说话人身份,即使仅在英语数据上进行训练,也能在多种语言中展现出高度的自然度和说话人相似性。 AI
影响 该方法可以实现更易于访问和多语言的语音转换,而无需并行数据集。
排序理由 该集群包含一篇详细介绍新语音转换方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →