一项新近发表在arXiv上的研究评估了包括Whisper、Parakeet和Wav2Vec2在内的九个最先进的自动语音识别(ASR)模型在荷兰儿童语音数据集上的表现。微调后的Whisper-medium模型展现了最佳的整体性能,在JASMIN数据集上的词错误率(WER)为5.54%,在更具挑战性的DART数据集上为70.37%。研究人员还开发了一种自动识别发音准确且置信度高的语句的方法,减少了手动验证的需求,并实现了数据中很大一部分的自动转录。 AI
影响 这项研究有望提高儿童语音转录在语言学研究中的准确性和效率。
排序理由 这是一篇研究论文,详细介绍了ASR模型在特定类型语音数据上的表现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →