English(EN) CPU-only TTS benchmark: Kokoro 82M vs Supertonic 3 vs Inflect-Nano-v1 (4.6M params), with UTMOS scoring on every sample

纯CPU TTS基准测试：Kokoro 82M在质量上领先，Inflect-Nano-v1在速度上领先

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-23 12:43

一项在CPU上对三种开源文本转语音（TTS）模型——Kokoro 82M、Supertonic 3和Inflect-Nano-v1——进行的基准测试，揭示了显著的性能和质量差异。Inflect-Nano-v1尽管参数量小且实时因子（RTF）最快达到0.1376，但UTMOS评分发现其被高估，并且存在硬性输出长度限制。Supertonic 3提供了折衷方案，在5步配置下，以0.3164的RTF实现了4.37的MOS评分，而Kokoro 82M虽然RTF在0.5711到0.7865之间，速度最慢，但产生了最接近人类的音频。 AI

影响为基于CPU的TTS模型的速度和音频质量之间的权衡提供了见解，指导开发人员进行模型选择。

排序理由该集群详细介绍了对多个开源TTS模型的基准测试，包括性能指标和质量评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

模型发布

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

纯CPU TTS基准测试：Kokoro 82M在质量上领先，Inflect-Nano-v1在速度上领先

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/gvij · 2026-06-23 12:43

纯CPU的TTS基准测试：Kokoro 82M 对比 Supertonic 3 对比 Inflect-Nano-v1（460万参数），UTMOS为每个样本评分

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1udg3rf/cpuonly_tts_benchmark_kokoro_82m_vs_supertonic_3/"> <img alt="CPU-only TTS benchmark: Kokoro 82M vs Supertonic 3 vs Inflect-Nano-v1 (4.6M params), with UTMOS scoring on every sample" src="https://previ…

报道来源 [1]

纯CPU的TTS基准测试：Kokoro 82M 对比 Supertonic 3 对比 Inflect-Nano-v1（460万参数），UTMOS为每个样本评分

相关实体

相关话题