Miso Labs 发布了 Miso-TTS,一个拥有 80 亿参数的文本转语音模型。该模型利用 Sesame CSM 架构,从文本和可选的音频上下文生成音频代码。它建立在一个大型的 Llama 3.2 风格骨干网络和一个较小的自回归音频解码器之上,能够实现高质量的对话语音和语音续写。 AI
影响 为语音生成和音频内容创作的新应用提供了支持。
排序理由 发布了一个新的开源文本转语音模型。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →