研究人员对用于古兰经自动语音识别(ASR)的预训练Transformer模型进行了比较研究,旨在降低用户诵读经文时的高词错误率(WER)。该研究在870小时的古兰经数据集上微调了Wav2Vec2.0、HuBERT和XLS-R等模型,确定了转录准确性的关键因素。最佳配置在EveryAyah子集上实现了0.08的WER,相比Citrinet基线有了显著改进,同时还缩短了训练时间。 AI
影响 提高了特定ASR任务的准确性和效率,可能有助于古兰经研究和普及。
排序理由 学术论文,详细介绍了AI模型在特定任务上的比较研究。[lever_c_demoted from research: ic=1 ai=1.0]
- Citrinet
- EveryAyah
- Hubert
- Hugging Face
- Tartil
- transformer
- wav2vec2.0
- Wav2Vec2-XLSR-53
- XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →