研究人员开发了一个新的框架来评估多语言文本转语音(TTS)系统,重点关注它们保留区分词义的语音学对比度的能力。平均意见分(MOS)等标准指标在此任务中不足。所提出的方法使用一个在人类语音上训练的分类器来根据特定语言的语音学模式审计TTS输出。当应用于Meta的MMS TTS系统(针对阿萨姆语)时,该框架显示某些元音被错误地发音,表明合成语音中的预期语音学与实际语音学之间存在差距。 AI
影响 引入了一种评估多语言TTS模型语言保真度的新颖方法,有可能提高其在现实世界中的可用性。
排序理由 学术论文发布在arXiv上,详细介绍了TTS系统的新评估框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →