研究人员开发了 LibriConvo,这是一个新颖的合成对话语音语料库,旨在改进自动语音识别 (ASR) 和说话人日志系统。该语料库通过改编 Speaker-Aware Simulated Conversation 框架创建,处理现有的 English CallHome 数据以获取对话时序,并使用按书籍分组的 LibriTTS 发音单元以获得语义连贯性。LibriConvo 包含超过 240 小时的音频,涉及 830 位说话人,基线结果表明,Sortformer 和经过微调的 Fast Conformer-CTC XLarge 等模型在此基准测试中的表现优于现有系统。 AI
影响 为评估和改进多说话人语音处理系统提供了一个新基准。
排序理由 该集群包含一篇研究论文,详细介绍了用于语音处理任务的新合成数据集和基准。 [lever_c_demoted from research: ic=1 ai=1.0]
- English CallHome
- Fast Conformer-CTC XLarge
- LibriConvo
- LibriTTS
- pyannote
- Serialized Output Training
- Sortformer
- Speaker-Aware Simulated Conversation
- Whisper-large-v3
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →