English(EN) VAPO: End-to-end Slide-Enhanced Speech Recognition with Omni-modal Large Language Models

VAPO模型通过新颖的“先看后听”方法解决了语音识别中的视觉干扰问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了一种名为Visually-Anchored Policy Optimization (VAPO) 的新方法，以提高在存在视觉幻灯片内容时的语音识别能力。全模态大语言模型 (OLLMs) 经常遭受“视觉干扰”，即它们会从可见文本中幻觉出所说的词语。VAPO通过将模型的过程分解为独立的视觉先验提取和转录生成步骤来解决这个问题，模仿人类的“先看后听”行为。这种方法以及一个名为SlideASR-Bench的新基准，显著减少了专业领域实体识别中的错误。 AI

影响引入了一种缓解多模态语音识别中视觉干扰的新方法，有望提高基于演示的ASR系统的准确性。

排序理由这是一篇介绍新方法和基准的语音识别研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Rui Hu, Delai Qiu, Yining Wang, Shengping Liu, Jitao Sang · 2026-04-28 04:00

VAPO：基于全模态大语言模型的端到端滑窗增强语音识别

arXiv:2510.08618v2 Announce Type: replace-cross Abstract: Omni-modal large language models (OLLMs) offer a promising end-to-end solution for slide-enhanced speech recognition due to their inherent multimodal capabilities. However, we found a fundamental issue faced by OLLMs: \tex…

报道来源 [1]

VAPO：基于全模态大语言模型的端到端滑窗增强语音识别

相关实体

相关话题