PulseAugur
实时 18:29:25
English(EN) Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning

零样本语音克隆增强构音障碍ASR模型训练

研究人员探索了零样本语音克隆作为一种方法,用于增强在构音障碍语音上训练的自动语音识别(ASR)系统的数据集。通过使用Higgs Audio V2克隆TORGO数据集中的说话人,他们能够微调Whisper-medium模型。该方法实现了26.00%的词错误率(WER),与在真实或混合数据上训练的模型相比具有竞争力,并且在对中度至重度构音障碍的说话人进行真实数据训练方面表现出色。研究结果表明,零样本克隆为构音障碍ASR中的数据稀缺问题提供了一种可扩展的解决方案。 AI

影响 这项研究提供了一种可扩展的方法来改进构音障碍语音的ASR,有可能提高语音技术对言语障碍人士的可访问性和可用性。

排序理由 该集群包含一篇学术论文,详细介绍了改进ASR模型的新研究方法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

零样本语音克隆增强构音障碍ASR模型训练

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Satwinder Singh, Qianli Wang, Zihan Zhong, Clarion Mendes, Hasegawa-Johnson, Waleed Abdulla, Seyed Reza Shahamiri ·

    Low-Burden Data Augmentation for Dysarthric ASR via Zero-Shot Voice Cloning

    arXiv:2606.19823v1 Announce Type: cross Abstract: Automatic speech recognition remains unreliable for dysarthric speech due to data scarcity and high inter-speaker variability. While synthetic data can address these gaps, traditional methods often require extensive speaker-specif…

  2. arXiv cs.LG TIER_1 English(EN) · Seyed Reza Shahamiri ·

    通过零样本语音克隆实现低负担的构音障碍自动语音识别数据增强

    Automatic speech recognition remains unreliable for dysarthric speech due to data scarcity and high inter-speaker variability. While synthetic data can address these gaps, traditional methods often require extensive speaker-specific data, reintroducing the collection bottleneck. …