研究人员利用 WavLM 模型在基于说话人的语音用力分类方面取得了进展,其性能优于 Wav2Vec2 和 HuBERT 等先前的方法。为了应对数据稀缺问题,他们系统地研究了各种增强策略,包括 RIR 卷积、加性噪声、时间掩码、速度扰动、带限、MixUp 和 CutMix,这些策略一致提高了 WavLM 的性能。通过模拟语音用力连续体以减少相邻类别之间的混淆的高斯邻域软标签,进一步实现了性能提升。表现最佳的系统,即采用渐进式解冻、增强和软标签的 WavLM-BASE,在 AVID 语料库上实现了 78.2% 的新最先进准确率。 AI
影响 通过增强语音用力分类来提高语音技术的鲁棒性。
排序理由 学术论文,详细介绍了在特定基准上的新最先进结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →