PulseAugur
实时 20:28:14
English(EN) MISO-TTS . 8 Billion text2speech model released.

Miso Labs 发布了 80 亿参数的文本转语音模型

Miso Labs 发布了 Miso-TTS,一个拥有 80 亿参数的文本转语音模型。该模型利用 Sesame CSM 架构,从文本和可选的音频上下文生成音频代码。它建立在一个大型的 Llama 3.2 风格骨干网络和一个较小的自回归音频解码器之上,能够实现高质量的对话语音和语音续写。 AI

影响 为语音生成和音频内容创作的新应用提供了支持。

排序理由 发布了一个新的开源文本转语音模型。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/StableDiffusion 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Miso Labs 发布了 80 亿参数的文本转语音模型

报道来源 [1]

  1. r/StableDiffusion TIER_2 English(EN) · /u/AgeNo5351 ·

    MISO-TTS . 8 Billion text2speech model released.

    <table> <tr><td> <a href="https://www.reddit.com/r/StableDiffusion/comments/1tux5qx/misotts_8_billion_text2speech_model_released/"> <img alt="MISO-TTS . 8 Billion text2speech model released." src="https://external-preview.redd.it/M3MzM3hrcTNpdzRoMY7GS_to5cylywf9TcdHvB0d0MGuCTgk2t…