研究人员开发了一种新颖的实时多语言自动语音识别(ASR)方法,该方法利用滚动缓冲区和专用的单一语言模型。该系统不使用单一的大型多语言模型,而是将音频路由到小型、高效的单一语言模型(每个约100M参数)进行转录。该方法在跨语句代码转换基准测试中实现了约13%的词错误率(WER),优于经过测试的云API和其他系统。 AI
影响 这种方法为实时多语言语音识别提供了一种更高效、更准确的解决方案,有可能提高不同语言的语音启用应用程序的可访问性和可用性。
排序理由 该集群描述了一篇详细介绍ASR新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →