PulseAugur
实时 10:32:40
实体 Seed-TTS-eval

Seed-TTS-eval

PulseAugur coverage of Seed-TTS-eval — every cluster mentioning Seed-TTS-eval across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
主题
情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 3 条
  1. TOOL · CL_79909 ·

    端到端训练统一TTS组件,提升语音生成效果

    研究人员开发了一种新颖的、基于离散Token的大语言模型(LLM)的语音合成(TTS)系统的端到端训练框架。与之前独立训练的级联系统不同,该方法统一了语音分词器、LLM、流匹配模型和奖励模型的训练。联合优化鼓励离散语音Token空间更好地捕捉声学和语义信息,从而改善TTS生成效果。实验表明,这种端到端方法在Seed-TTS-Eval基准测试上取得了最先进的成果,并且使用的LLM规模显著减小。

  2. RESEARCH · CL_77122 ·

    新的20亿参数TTS模型dots.tts达到SOTA

    研究人员推出dots.tts,一个拥有20亿参数、在连续潜在空间中运行的文本到语音模型。该模型包含多项创新,包括用于结构化语音表示的AudioVAE、用于提高一致性的全历史条件以及用于增强鲁棒性的自纠正后训练。Dots.tts在Seed-TTS-Eval等基准测试中取得了最先进的成果,并通过MeanFlow蒸馏实现了高效、低延迟的生成。

  3. TOOL · CL_44946 ·

    RobustSpeechFlow 通过新颖的训练增强文本到语音的准确性

    研究人员开发了 RobustSpeechFlow,一种用于增强文本到语音(TTS)系统鲁棒性的新训练策略。该方法使用基于增强的对比流匹配来直接解决单词跳过和重复等常见错误,在没有外部对齐器的情况下提高了内容保真度。该方法在既定基准上显著降低了单词和字符错误率,从而实现了更准确、更清晰的语音合成。