PulseAugur
实时 08:39:46

SPARCLE模型提升低资源场景下的文本转语音效果

研究人员推出SPARCLE,一种新颖的说话人感知字形表示模型,旨在改进文本转语音(TTS)合成,尤其是在低资源场景下。与依赖字形到音素转换器的传统基于音素的系统不同,SPARCLE直接将字形与声学表示对齐,并融入说话人身份信息。与标准的基于字形的模型相比,该方法在极低资源场景下显著提高了效果,将词错误率降低了一半。 AI

影响 该模型有望显著提高文本转语音系统的质量和可访问性,特别是对于代表性不足的语言或口音。

排序理由 该集群包含一篇详细介绍新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SPARCLE模型提升低资源场景下的文本转语音效果

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Priyam Mazumdar, Yurii Halychanskyi, Steven Guo, Mark Hasegawa-Johnson, Volodymyr Kindratenko ·

    SPARCLE: SPeaker-aware Aligned Representations via Contrastive Language Embeddings

    arXiv:2607.01238v1 Announce Type: cross Abstract: Recent advances in speech synthesis have shifted from phoneme representations to direct grapheme modeling. While phonemes address the one-to-many mapping between text and acoustics, they rely on grapheme-to-phoneme (G2P) systems t…