English(EN) BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language

新研究通过新方法应对多语言ASR挑战

作者 PulseAugur 编辑部 · [9 个来源] · 2026-06-01 15:22

研究人员正在探索多语言自动语音识别（ASR）的新方法，特别是在单次对话中使用多种语言的语码转换场景。一篇论文研究了通过模型合并将语码转换能力推广到未见过语言对的通用性，但成功有限。另一个项目BaltiVoice为巴尔蒂语引入了一个新的语音语料库和微调的Whisper模型，显著提高了ASR准确性。此外，一个名为WAXAL-NET的系统表明，专门的、较小的ASR模型在非洲语言方面可以优于大型多语言模型，并且一个实时多语言ASR系统使用小型、专业化模型的路由方法来实现高准确性和效率。 AI

影响多语言ASR的进步可以显著改善不同语言社区的人机交互，并实现更高效、更专业的语音识别系统。

排序理由多篇研究论文和项目展示了自动语音识别（ASR）的新模型、数据集和技术，特别是在多语言和语码转换的背景下。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 9 个来源。我们如何撰写摘要 →

报道来源 [9]

arXiv cs.CL TIER_1 English(EN) · Gio Paik, Hyunseo Shin, Soungmin Lee · 2026-06-05 04:00

迈向真正多语言的自动语音识别：代码转换自动语音识别泛化至未见语言对

arXiv:2606.05846v1 Announce Type: new Abstract: Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across di…
arXiv cs.CL TIER_1 English(EN) · Soungmin Lee · 2026-06-04 08:22

迈向真正多语言语音识别：代码转换语音识别泛化至未见语言对

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primar…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-04 00:00

迈向真正多语言语音识别：代码转换语音识别泛化至未见语言对

Code-switching automatic speech recognition models show limited generalization across unseen language pairs despite attempts at model merging and domain generalization techniques.
arXiv cs.AI TIER_1 English(EN) · Muhammad Ali · 2026-06-03 04:00

BaltiVoice：用于 Balti 语的语音语料库和微调 Whisper ASR 系统

arXiv:2606.03504v1 Announce Type: cross Abstract: We present BaltiVoice, a 16.8-hour read-speech corpus for Balti (ISO 639-3: bft), a Tibetic language spoken in Gilgit-Baltistan, Pakistan, with no prior publicly available ASR resources. The corpus contains 10,060 validated uttera…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-02 11:23

BaltiVoice：一种用于Balti语的语音语料库和微调Whisper ASR系统

We present BaltiVoice, a 16.8-hour read-speech corpus for Balti (ISO 639-3: bft), a Tibetic language spoken in Gilgit-Baltistan, Pakistan, with no prior publicly available ASR resources. The corpus contains 10,060 validated utterances in native Nastaliq script, derived from Mozil…
arXiv cs.CL TIER_1 English(EN) · Muhammad Ali · 2026-06-02 11:23

BaltiVoice：一种用于巴尔蒂语的语音语料库和微调Whisper ASR系统

We present BaltiVoice, a 16.8-hour read-speech corpus for Balti (ISO 639-3: bft), a Tibetic language spoken in Gilgit-Baltistan, Pakistan, with no prior publicly available ASR resources. The corpus contains 10,060 validated utterances in native Nastaliq script, derived from Mozil…
arXiv cs.CL TIER_1 English(EN) · Victor Tolulope Olufemi, Oreoluwa Babatunde, Ramsey Njema, Bolarinwa Gbotemi, Wanchi Lucia Yen, John Uzodinma, Sunday Ajayi, Oluwademilade Williams, Kausar Moshood, Innocent Elendu Anyaele, Akebert Arefaine, Candace Hunzwi, Wongel Dawit Daniel, Emmilly N… · 2026-06-02 04:00

WAXAL-NET：19种非洲语言的微调边缘ASR

arXiv:2606.02375v1 Announce Type: new Abstract: We evaluate whether compact domain-specialized ASR models can outperform massively multilingual foundation models for conversational African speech across 19 languages in the WAXAL corpus. Fine-tuned edge models achieve a macro-aver…
arXiv cs.CL TIER_1 English(EN) · Prasenjit Mitra · 2026-06-01 15:22

WAXAL-NET：针对19种非洲语言的微调边缘ASR

We evaluate whether compact domain-specialized ASR models can outperform massively multilingual foundation models for conversational African speech across 19 languages in the WAXAL corpus. Fine-tuned edge models achieve a macro-averaged WER of $38.0\%$ compared to $64.9\%$ for th…
r/MachineLearning TIER_1 English(EN) · /u/JeanMichelRanu · 2026-06-01 15:53

使用滚动缓冲区和单一语言模型进行实时多语言ASR [P]

<table> <tr><td> <a href="https://www.reddit.com/r/MachineLearning/comments/1ttwfuy/realtime_multilingual_asr_using_rolling_buffers/"> <img alt="Real-time multilingual ASR using rolling buffers and monolingual models [P]" src="https://preview.redd.it/qu5jir6i0p4h1.png?width=140&a…

报道来源 [9]

相关实体

相关话题