English(EN) Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

新的V-ASR系统使用音素预测和LLM提高准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员开发了一种新的两阶段视觉自动语音识别（V-ASR）框架，旨在通过关注音素而非直接的单词预测来提高准确性。该系统首先融合视觉线索和面部地标运动特征来预测音素，然后利用一个名为NLLB的大型语言模型（LLM）进行单词重建。据报道，这种方法在LRS2数据集上实现了17.4%的词错误率，在LRS3数据集上实现了21.0%，优于以往在唇形（viseme）模糊方面存在困难的方法。 AI

影响这种基于音素的方法可能带来更鲁棒的语音识别系统，尤其是在嘈杂环境中或对于有言语障碍的人士。

排序理由该集群包含一篇详细介绍一种新的视觉语音识别方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Matthew Kit Khinn Teng, Haibo Zhang, Takeshi Saitoh · 2026-06-02 04:00

基于点-视觉融合与语言模型重建的音素级视觉语音识别

arXiv:2507.18863v2 Announce Type: replace-cross Abstract: Visual Automatic Speech Recognition (V-ASR) is a challenging task that involves interpreting spoken language solely from visual information, such as lip movements and facial expressions. This task is notably challenging du…

报道来源 [1]

基于点-视觉融合与语言模型重建的音素级视觉语音识别

相关实体

相关话题