Miso Labs 发布了 MisoTTS,这是一款开放权重的 80 亿参数文本转语音模型,通过文本和音频上下文进行条件化,生成富有表现力的语音。该模型利用残差向量量化 (RVQ) 在不增加参数数量的情况下扩展其声学范围,其灵感来自 Sesame CSM 架构。与 ElevenLabs 和 Sesame 等竞争对手相比,MisoTTS 的延迟显著降低,尽管其功能和声明需要进一步的第三方验证。 AI
影响 为低延迟、上下文感知的 TTS 树立了新标杆,可能影响语音克隆和 AI 助手开发。
排序理由 来自拥有开放权重和新颖架构的实验室的模型发布。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →