研究人员开发了一种基于指标的方法,通过分析语音映射来评估文本到语音(TTS)系统的质量。该研究评估了包括 VITS、Glow-TTS 和 Tacotron 2 在内的六种有影响力的 TTS 模型,使用了峰值因子、频谱平衡和倒谱峰值突出度(CPPs)等指标。研究结果表明,语音范围是模型能力的关键指标,其中 VITS 显示出最宽的范围,而 Glow-TTS 在柔和发音方面表现出色。研究还确定,7-8 dB 之间的 CPPs 值与自然的语音质量相关,而高于 10 dB 的值可能导致机器人般的声音。 AI
影响 引入了评估 TTS 自然度和表现力的新指标,可能指导未来的模型开发。
排序理由 学术论文,提出了一种新的 TTS 系统评估框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →