研究人员开发了一种名为Visually-Anchored Policy Optimization (VAPO) 的新方法,以提高在存在视觉幻灯片内容时的语音识别能力。全模态大语言模型 (OLLMs) 经常遭受“视觉干扰”,即它们会从可见文本中幻觉出所说的词语。VAPO通过将模型的过程分解为独立的视觉先验提取和转录生成步骤来解决这个问题,模仿人类的“先看后听”行为。这种方法以及一个名为SlideASR-Bench的新基准,显著减少了专业领域实体识别中的错误。 AI
影响 引入了一种缓解多模态语音识别中视觉干扰的新方法,有望提高基于演示的ASR系统的准确性。
排序理由 这是一篇介绍新方法和基准的语音识别研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →