PulseAugur
实时 18:21:16
English(EN) Real-time multilingual ASR using rolling buffers and monolingual models [P]

多语言自动语音识别使用滚动缓冲区和专用模型

研究人员开发了一种新颖的实时多语言自动语音识别(ASR)方法,该方法利用滚动缓冲区和专用的单一语言模型。该系统不使用单一的大型多语言模型,而是将音频路由到小型、高效的单一语言模型(每个约100M参数)进行转录。该方法在跨语句代码转换基准测试中实现了约13%的词错误率(WER),优于经过测试的云API和其他系统。 AI

影响 这种方法为实时多语言语音识别提供了一种更高效、更准确的解决方案,有可能提高不同语言的语音启用应用程序的可访问性和可用性。

排序理由 该集群描述了一篇详细介绍ASR新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

多语言自动语音识别使用滚动缓冲区和专用模型

报道来源 [1]

  1. r/MachineLearning TIER_1 English(EN) · /u/JeanMichelRanu ·

    Real-time multilingual ASR using rolling buffers and monolingual models [P]

    <table> <tr><td> <a href="https://www.reddit.com/r/MachineLearning/comments/1ttwfuy/realtime_multilingual_asr_using_rolling_buffers/"> <img alt="Real-time multilingual ASR using rolling buffers and monolingual models [P]" src="https://preview.redd.it/qu5jir6i0p4h1.png?width=140&a…