English(EN) TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

新的 TTS 框架 TLDR 加快了音频生成速度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了 TLDR，这是一个用于自回归文本到语音（TTS）系统的新框架，可显著加快推理速度。通过将离散音频令牌分组为紧凑的潜在块，TLDR 将因果建模从令牌级别转移到块级别的序列。与现有方法相比，该方法实现了 1.8 倍的推理速度提升，并将 KV 缓存内存减少了高达 75%。该框架无需替换核心模块即可在 TTS 系统中实现实际的成本降低。 AI

影响降低了文本到语音系统的推理成本，可能实现更快、更高效的音频生成。

排序理由该集群包含一篇详细介绍新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

arXiv

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yejin Lee, Junwon Moon, Hyoeun Kim, Hyunjin Choi, Heeseung Kim, Kyuhong Shim · 2026-06-09 04:00

TLDR：压缩音频令牌以实现高效的自回归文本到语音转换

arXiv:2606.09019v1 Announce Type: cross Abstract: Codec-based autoregressive (AR) speech language models have achieved strong text-to-speech (TTS) quality by modeling speech as sequences of discrete audio tokens with large pretrained backbones. However, this token-level formulati…

报道来源 [1]

TLDR：压缩音频令牌以实现高效的自回归文本到语音转换

相关实体

相关话题