PulseAugur
实时 21:44:10
English(EN) Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

语音识别系统在语种转换语音上的基准测试

一项新的基准研究评估了五种商业自动语音识别(ASR)系统在语种转换语音上的表现,特别关注阿拉伯语、波斯语和德语与英语的混合。该研究引入了一个使用GPT-4o和Gemini 1.5 Pro对转录文本进行评分的新型流程,将LLM成本降低了91%,并采用BERTScore作为比传统词错误率(WER)更可靠的某些语种对的度量标准。ElevenLabs Scribe v2成为表现最佳的系统,在所有测试的语种对中实现了最低的WER和最高的BERTScore。 AI

影响 这项研究突显了语种转换语音识别的挑战,并引入了一种更鲁棒的评估方法,可能指导未来多语言语音技术的发展。

排序理由 该集群包含一篇学术论文,详细介绍了ASR系统的新基准和评估方法。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Sajjad Abdoli, Ghassan Al-Sumaidaee, Clayton W. Taylor, Ahmad ElShiekh, Ahmed Rashad ·

    Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

    arXiv:2605.19069v2 Announce Type: replace Abstract: Code-switching -- the natural alternation between two languages within a single utterance -- represents one of the most challenging and under-studied conditions for automatic speech recognition (ASR). Existing commercial ASR ben…