研究人员开发了 TLDR,这是一个用于自回归文本到语音(TTS)系统的新框架,可显著加快推理速度。通过将离散音频令牌分组为紧凑的潜在块,TLDR 将因果建模从令牌级别转移到块级别的序列。与现有方法相比,该方法实现了 1.8 倍的推理速度提升,并将 KV 缓存内存减少了高达 75%。该框架无需替换核心模块即可在 TTS 系统中实现实际的成本降低。 AI
影响 降低了文本到语音系统的推理成本,可能实现更快、更高效的音频生成。
排序理由 该集群包含一篇详细介绍新技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →