English(EN) FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions

FalAR语料库以5800小时议会数据助力欧洲葡萄牙语ASR

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-26 14:14

研究人员推出FalAR，一个用于欧洲葡萄牙语议会话语的新型大规模语音语料库，旨在改进该语言的自动语音识别（ASR）。该语料库包含约5800小时的语音数据，跨越20年，并为1180名个人提供了说话人身份标注。实验表明，使用FalAR进行预训练可以显著提高ASR性能，将词错误率（WER）降低高达14%。 AI

影响该语料库旨在显著提高欧洲葡萄牙语的ASR性能，弥补了与巴西葡萄牙语相比资源上的不足。

排序理由该集群包含一篇详细介绍用于ASR的新数据集的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Francisco Teixeira, Carlos Carvalho, Mariana Juli\~ao, Catarina Botelho, Rub\'en Solera-Ure\~na, S\'ergio Paulo, Thomas Rolland, Ben Peters, Isabel Trancoso, Alberto Abad · 2026-05-27 04:00

FalAR：一个大规模、带说话人标注的欧洲葡萄牙语议会会议语音语料库

arXiv:2605.27062v1 Announce Type: new Abstract: State-of-the-art performance for Automatic Speech Recognition (ASR) largely depends on the availability of large-scale labeled corpora. This creates a demand for increased data collection efforts, particularly for under-represented …
arXiv cs.CL TIER_1 English(EN) · Alberto Abad · 2026-05-26 14:14

FalAR：一个大规模、带说话人标注的欧洲葡萄牙语议会会议语音语料库

State-of-the-art performance for Automatic Speech Recognition (ASR) largely depends on the availability of large-scale labeled corpora. This creates a demand for increased data collection efforts, particularly for under-represented languages and dialectal varieties. Due to having…

报道来源 [2]

FalAR：一个大规模、带说话人标注的欧洲葡萄牙语议会会议语音语料库

FalAR：一个大规模、带说话人标注的欧洲葡萄牙语议会会议语音语料库

相关实体

相关话题