PulseAugur
实时 09:03:37
English(EN) Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings

WavLM 通过数据增强技术推进语音用力分类

研究人员利用 WavLM 模型在基于说话人的语音用力分类方面取得了进展,其性能优于 Wav2Vec2HuBERT 等先前的方法。为了应对数据稀缺问题,他们系统地研究了各种增强策略,包括 RIR 卷积、加性噪声、时间掩码、速度扰动、带限、MixUpCutMix,这些策略一致提高了 WavLM 的性能。通过模拟语音用力连续体以减少相邻类别之间的混淆的高斯邻域软标签,进一步实现了性能提升。表现最佳的系统,即采用渐进式解冻、增强和软标签的 WavLM-BASE,在 AVID 语料库上实现了 78.2% 的新最先进准确率。 AI

影响 通过增强语音用力分类来提高语音技术的鲁棒性。

排序理由 学术论文,详细介绍了在特定基准上的新最先进结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

WavLM 通过数据增强技术推进语音用力分类

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Zahra Omidi, John H. L. Hansen ·

    Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings

    arXiv:2606.27543v1 Announce Type: cross Abstract: The variations in vocal effort range (e.g. whisper, soft, neutral, loud, shout) alter production and speech acoustics, reducing intelligibility and limiting the robustness of any subsequent speech technology. Classification is cha…