SPARCLE模型提升低资源场景下的文本转语音效果

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-03 04:00

研究人员推出SPARCLE，一种新颖的说话人感知字形表示模型，旨在改进文本转语音（TTS）合成，尤其是在低资源场景下。与依赖字形到音素转换器的传统基于音素的系统不同，SPARCLE直接将字形与声学表示对齐，并融入说话人身份信息。与标准的基于字形的模型相比，该方法在极低资源场景下显著提高了效果，将词错误率降低了一半。 AI

影响该模型有望显著提高文本转语音系统的质量和可访问性，特别是对于代表性不足的语言或口音。

排序理由该集群包含一篇详细介绍新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Priyam Mazumdar, Yurii Halychanskyi, Steven Guo, Mark Hasegawa-Johnson, Volodymyr Kindratenko · 2026-07-03 04:00

SPARCLE: SPeaker-aware Aligned Representations via Contrastive Language Embeddings

arXiv:2607.01238v1 Announce Type: cross Abstract: Recent advances in speech synthesis have shifted from phoneme representations to direct grapheme modeling. While phonemes address the one-to-many mapping between text and acoustics, they rely on grapheme-to-phoneme (G2P) systems t…

报道来源 [1]

SPARCLE: SPeaker-aware Aligned Representations via Contrastive Language Embeddings

相关实体

相关话题