PulseAugur
实时 11:37:01
English(EN) dots.tts Technical Report

新的20亿参数TTS模型dots.tts达到SOTA

研究人员推出dots.tts,一个拥有20亿参数、在连续潜在空间中运行的文本到语音模型。该模型包含多项创新,包括用于结构化语音表示的AudioVAE、用于提高一致性的全历史条件以及用于增强鲁棒性的自纠正后训练。Dots.tts在Seed-TTS-Eval等基准测试中取得了最先进的成果,并通过MeanFlow蒸馏实现了高效、低延迟的生成。 AI

影响 在多语言TTS基准测试中设定了新的SOTA,可能提高AI应用中的语音克隆和情感表达能力。

排序理由 该集群包含一份技术报告,详细介绍了一个具有性能基准的新文本到语音模型。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

报道来源 [3]

  1. arXiv cs.AI TIER_1 English(EN) · Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu ·

    dots.tts 技术报告

    arXiv:2606.07080v1 Announce Type: cross Abstract: We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are …

  2. arXiv cs.AI TIER_1 English(EN) · Kai Yu ·

    dots.tts 技术报告

    We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multip…

  3. Hugging Face Daily Papers TIER_1 English(EN) ·

    dots.tts 技术报告

    A 2B-parameter continuous autoregressive text-to-speech model trained on a multilingual corpus achieves state-of-the-art performance on multiple benchmarks while enabling efficient low-latency speech generation through specialized distillation techniques.