English(EN) From Speech to Text Corpora: Evaluating ASR-Based Data Acquisition for Low-Resource Fongbe and Hausa

ASR系统评估用于低资源非洲语言文本语料库

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-20 23:51

研究人员评估了自动语音识别（ASR）系统在为低资源非洲语言（特别是芳语和豪萨语）创建文本语料库方面的有效性。通过在芳语数据上微调MMS-300M模型，他们显著降低了词错误率（WER）。对于豪萨语，则使用了现有的微调Whisper-Small模型。虽然ASR流程对豪萨语显示出潜力，但芳语转录的质量表明需要改进模型或进行后处理。 AI

影响这项研究通过改进数据采集方法，有可能加速代表性不足的非洲语言语言模型的发展。

排序理由该项目是一篇学术论文，详细介绍了低资源语言ASR的研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Prasenjit Mitra · 2026-06-20 23:51

从语音到文本语料库：评估基于ASR的数据采集在低资源方言Fongbe和Hausa中的应用

Low-resource African languages lack text corpora needed for language model training. We investigate whether ASR pipelines can extend text resources for two typologically distinct West African languages: Fongbe (tonal, diacritic-rich) and Hausa (non-tonal). We fine-tune MMS-300M o…

报道来源 [1]

从语音到文本语料库：评估基于ASR的数据采集在低资源方言Fongbe和Hausa中的应用

相关实体

相关话题