Hausa
PulseAugur coverage of Hausa — every cluster mentioning Hausa across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
Survey maps NLP resources for Hausa and Fongbe languages
一项新的调查论文详细介绍了当前用于豪萨语和芳贝语(两种西非语言)的自然语言处理(NLP)资源的现状。该研究系统地编目了可用的文本和语音数据集、预训练模型和基准,发现豪萨语拥有更多样化的文本资源,而芳贝语近期在语音数据方面受到了学术界的关注。该论文指出了关键的差距,例如芳贝语的特定领域文本和豪萨语的专用语音语料库,并为这些语言未来的 NLP 开发提供了建议。
-
新的 SBPN 模型通过知识蒸馏提升尼日利亚语言 ASR 性能
研究人员开发了一个名为 Sometin Beta Pass Notin (SBPN) 的新多语言自动语音识别 (ASR) 框架,以提高尼日利亚语言的性能。该框架采用两阶段知识蒸馏过程,首先从单一语言模型进行蒸馏,然后通过伪标记数据的迭代自我改进。该方法在 Common Voice 和 Fleurs 等基准测试中,相对于基线平均降低了 29% 的词错误率,并且优于现有的最先进的多语言模型。SBPN 以两种尺寸发布为开放基础模型,旨在为该…
-
新模型通过纠正书写异常来改进 Hausa 自然语言处理
研究人员开发了一种自动纠正 Hausa 文本中书写异常的方法,例如字符替换和间距错误,这些异常经常阻碍自然语言处理应用。他们创建了一个包含超过 400,000 个噪声-干净 Hausa 句子对的数据集,并对包括 M2M100 和 AfriTeVA 在内的各种基于 Transformer 的模型进行了微调。实验表明,M2M100 等模型取得了最先进的结果,证明纠错显著提高了低资源语言的文本分类和机器翻译等下游任务。