PulseAugur
实时 09:22:56
English(EN) Miso Labs Releases MisoTTS: An 8B Emotive Text-to-Speech Model with Open Weights

Miso Labs 发布开放权重的 8B TTS 模型 MisoTTS

Miso Labs 发布了 MisoTTS,这是一款开放权重的 80 亿参数文本转语音模型,通过文本和音频上下文进行条件化,生成富有表现力的语音。该模型利用残差向量量化 (RVQ) 在不增加参数数量的情况下扩展其声学范围,其灵感来自 Sesame CSM 架构。与 ElevenLabs 和 Sesame 等竞争对手相比,MisoTTS 的延迟显著降低,尽管其功能和声明需要进一步的第三方验证。 AI

影响 为低延迟、上下文感知的 TTS 树立了新标杆,可能影响语音克隆和 AI 助手开发。

排序理由 来自拥有开放权重和新颖架构的实验室的模型发布。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Miso Labs 发布开放权重的 8B TTS 模型 MisoTTS

报道来源 [1]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    Miso Labs Releases MisoTTS: An 8B Emotive Text-to-Speech Model with Open Weights

    <p>Miso Labs has released MisoTTS, an open-weights 8B text-to-speech model. It uses residual vector quantization (RVQ) to scale its sonic range without scaling parameters, and conditions on both text and audio context to respond to speaker tone. The architecture pairs a 7.7B back…