English(EN) MISO-TTS . 8 Billion text2speech model released.

Miso Labs 发布了 80 亿参数的文本转语音模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 17:03

Miso Labs 发布了 Miso-TTS，一个拥有 80 亿参数的文本转语音模型。该模型利用 Sesame CSM 架构，从文本和可选的音频上下文生成音频代码。它建立在一个大型的 Llama 3.2 风格骨干网络和一个较小的自回归音频解码器之上，能够实现高质量的对话语音和语音续写。 AI

影响为语音生成和音频内容创作的新应用提供了支持。

排序理由发布了一个新的开源文本转语音模型。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/StableDiffusion TIER_2 English(EN) · /u/AgeNo5351 · 2026-06-02 17:03

MISO-TTS . 8 Billion text2speech model released.

<table> <tr><td> <a href="https://www.reddit.com/r/StableDiffusion/comments/1tux5qx/misotts_8_billion_text2speech_model_released/"> <img alt="MISO-TTS . 8 Billion text2speech model released." src="https://external-preview.redd.it/M3MzM3hrcTNpdzRoMY7GS_to5cylywf9TcdHvB0d0MGuCTgk2t…