PulseAugur
实时 18:00:34
English(EN) FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions

FalAR语料库以5800小时议会数据助力欧洲葡萄牙语ASR

研究人员推出FalAR,一个用于欧洲葡萄牙语议会话语的新型大规模语音语料库,旨在改进该语言的自动语音识别(ASR)。该语料库包含约5800小时的语音数据,跨越20年,并为1180名个人提供了说话人身份标注。实验表明,使用FalAR进行预训练可以显著提高ASR性能,将词错误率(WER)降低高达14%。 AI

影响 该语料库旨在显著提高欧洲葡萄牙语的ASR性能,弥补了与巴西葡萄牙语相比资源上的不足。

排序理由 该集群包含一篇详细介绍用于ASR的新数据集的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

FalAR语料库以5800小时议会数据助力欧洲葡萄牙语ASR

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Francisco Teixeira, Carlos Carvalho, Mariana Juli\~ao, Catarina Botelho, Rub\'en Solera-Ure\~na, S\'ergio Paulo, Thomas Rolland, Ben Peters, Isabel Trancoso, Alberto Abad ·

    FalAR:一个大规模、带说话人标注的欧洲葡萄牙语议会会议语音语料库

    arXiv:2605.27062v1 Announce Type: new Abstract: State-of-the-art performance for Automatic Speech Recognition (ASR) largely depends on the availability of large-scale labeled corpora. This creates a demand for increased data collection efforts, particularly for under-represented …

  2. arXiv cs.CL TIER_1 English(EN) · Alberto Abad ·

    FalAR:一个大规模、带说话人标注的欧洲葡萄牙语议会会议语音语料库

    State-of-the-art performance for Automatic Speech Recognition (ASR) largely depends on the availability of large-scale labeled corpora. This creates a demand for increased data collection efforts, particularly for under-represented languages and dialectal varieties. Due to having…