一项在CPU上对三种开源文本转语音(TTS)模型——Kokoro 82M、Supertonic 3和Inflect-Nano-v1——进行的基准测试,揭示了显著的性能和质量差异。Inflect-Nano-v1尽管参数量小且实时因子(RTF)最快达到0.1376,但UTMOS评分发现其被高估,并且存在硬性输出长度限制。Supertonic 3提供了折衷方案,在5步配置下,以0.3164的RTF实现了4.37的MOS评分,而Kokoro 82M虽然RTF在0.5711到0.7865之间,速度最慢,但产生了最接近人类的音频。 AI
影响 为基于CPU的TTS模型的速度和音频质量之间的权衡提供了见解,指导开发人员进行模型选择。
排序理由 该集群详细介绍了对多个开源TTS模型的基准测试,包括性能指标和质量评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →