English(EN) Voice Mapping of Text-to-Speech Systems: A Metric-Based Approach for Voice Quality Assessment

新指标评估文本到语音的语音质量和自然度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-06 04:00

研究人员开发了一种基于指标的方法，通过分析语音映射来评估文本到语音（TTS）系统的质量。该研究评估了包括 VITS、Glow-TTS 和 Tacotron 2 在内的六种有影响力的 TTS 模型，使用了峰值因子、频谱平衡和倒谱峰值突出度（CPPs）等指标。研究结果表明，语音范围是模型能力的关键指标，其中 VITS 显示出最宽的范围，而 Glow-TTS 在柔和发音方面表现出色。研究还确定，7-8 dB 之间的 CPPs 值与自然的语音质量相关，而高于 10 dB 的值可能导致机器人般的声音。 AI

影响引入了评估 TTS 自然度和表现力的新指标，可能指导未来的模型开发。

排序理由学术论文，提出了一种新的 TTS 系统评估框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Huanchen Cai, Sten Ternstr\"om · 2026-05-06 04:00

文本到语音系统的声音映射：基于指标的声音质量评估方法

arXiv:2605.00861v1 Announce Type: cross Abstract: This study investigates voice mapping as an evaluation framework for text-to-speech (TTS) synthesis quality. The study analyzes six TTS models, including historical and recent ones. The metrics are crest factor, spectrum balance, …

报道来源 [1]

文本到语音系统的声音映射：基于指标的声音质量评估方法

相关实体

相关话题