PulseAugur
实时 10:18:29
English(EN) TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

新的 TTS 框架 TLDR 加快了音频生成速度

研究人员开发了 TLDR,这是一个用于自回归文本到语音(TTS)系统的新框架,可显著加快推理速度。通过将离散音频令牌分组为紧凑的潜在块,TLDR 将因果建模从令牌级别转移到块级别的序列。与现有方法相比,该方法实现了 1.8 倍的推理速度提升,并将 KV 缓存内存减少了高达 75%。该框架无需替换核心模块即可在 TTS 系统中实现实际的成本降低。 AI

影响 降低了文本到语音系统的推理成本,可能实现更快、更高效的音频生成。

排序理由 该集群包含一篇详细介绍新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yejin Lee, Junwon Moon, Hyoeun Kim, Hyunjin Choi, Heeseung Kim, Kyuhong Shim ·

    TLDR:压缩音频令牌以实现高效的自回归文本到语音转换

    arXiv:2606.09019v1 Announce Type: cross Abstract: Codec-based autoregressive (AR) speech language models have achieved strong text-to-speech (TTS) quality by modeling speech as sequences of discrete audio tokens with large pretrained backbones. However, this token-level formulati…