PulseAugur
实时 17:08:08
English(EN) Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

新的V-ASR系统使用音素预测和LLM提高准确性

研究人员开发了一种新的两阶段视觉自动语音识别(V-ASR)框架,旨在通过关注音素而非直接的单词预测来提高准确性。该系统首先融合视觉线索和面部地标运动特征来预测音素,然后利用一个名为NLLB的大型语言模型(LLM)进行单词重建。据报道,这种方法在LRS2数据集上实现了17.4%的词错误率,在LRS3数据集上实现了21.0%,优于以往在唇形(viseme)模糊方面存在困难的方法。 AI

影响 这种基于音素的方法可能带来更鲁棒的语音识别系统,尤其是在嘈杂环境中或对于有言语障碍的人士。

排序理由 该集群包含一篇详细介绍一种新的视觉语音识别方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Matthew Kit Khinn Teng, Haibo Zhang, Takeshi Saitoh ·

    Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

    arXiv:2507.18863v2 Announce Type: replace-cross Abstract: Visual Automatic Speech Recognition (V-ASR) is a challenging task that involves interpreting spoken language solely from visual information, such as lip movements and facial expressions. This task is notably challenging du…