PulseAugur
实时 21:19:38
English(EN) From Speech to Text Corpora: Evaluating ASR-Based Data Acquisition for Low-Resource Fongbe and Hausa

ASR系统评估用于低资源非洲语言文本语料库

研究人员评估了自动语音识别(ASR)系统在为低资源非洲语言(特别是芳语和豪萨语)创建文本语料库方面的有效性。通过在芳语数据上微调MMS-300M模型,他们显著降低了词错误率(WER)。对于豪萨语,则使用了现有的微调Whisper-Small模型。虽然ASR流程对豪萨语显示出潜力,但芳语转录的质量表明需要改进模型或进行后处理。 AI

影响 这项研究通过改进数据采集方法,有可能加速代表性不足的非洲语言语言模型的发展。

排序理由 该项目是一篇学术论文,详细介绍了低资源语言ASR的研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

ASR系统评估用于低资源非洲语言文本语料库

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Prasenjit Mitra ·

    从语音到文本语料库:评估基于ASR的数据采集在低资源方言Fongbe和Hausa中的应用

    Low-resource African languages lack text corpora needed for language model training. We investigate whether ASR pipelines can extend text resources for two typologically distinct West African languages: Fongbe (tonal, diacritic-rich) and Hausa (non-tonal). We fine-tune MMS-300M o…