两篇新研究论文探讨了改善构音障碍者自动语音识别(ASR)的方法。构音障碍是一种常由神经系统疾病引起的言语障碍。第一篇论文系统研究了频谱特征和声学模型,发现结合音高特征和使用因子化时延神经网络(F-TDNN)模型可以在单词和句子识别方面带来显著的相对改进。第二篇论文侧重于数据增强技术,特别是语速修改(SRM)和音高修改(PM),并将其应用于Wav2Vec2模型,证明这些方法可以有效提高不同严重程度构音障碍者的ASR性能。 AI
影响 这些进展可能显著改善言语障碍者的沟通工具和可及性。
排序理由 两篇在arXiv上发表的学术论文,详细介绍了改善构音障碍语音识别的新方法。
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Factorized Time Delay Neural Network
- F-TDNN
- Gotit.pub
- Hugging Face
- ScienceCast
- Speaking-Rate Modification
- TORGO database
- Wav2Vec2
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →