PulseAugur
实时 18:54:22
English(EN) The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

AI 飞轮将印度语言 ASR 的小众实体识别准确率提高了 17 倍

研究人员开发了一种新颖的文本到语音 (TTS) 和语音到文本 (STT) 系统,称为“TTS-STT 飞轮”,以提高印度语言小众领域的自动语音识别 (ASR) 准确性。该系统合成实体密集型音频,成本低于 50 美元,然后用于微调现有模型。微调后的模型在泰卢固语的实体命中率 (EHR) 方面取得了显著改进,性能优于开源和商业系统。 AI

影响 这种方法可以显著提高资源匮乏语言中专业术语的 ASR 准确性,可能有利于全球通信和数据处理。

排序理由 该集群包含一篇 arXiv 论文,详细介绍了一种提高 ASR 性能的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

AI 飞轮将印度语言 ASR 的小众实体识别准确率提高了 17 倍

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Venkata Pushpak Teja Menta ·

    The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

    arXiv:2605.03073v1 Announce Type: new Abstract: Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by …

  2. arXiv cs.CL TIER_1 English(EN) · Venkata Pushpak Teja Menta ·

    The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

    Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by synthesis system), vasista22/whisper-telugu-larg…