PulseAugur
实时 12:57:38
实体 SlideASR-Bench

SlideASR-Bench

PulseAugur coverage of SlideASR-Bench — every cluster mentioning SlideASR-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06602 ·

    VAPO模型通过新颖的“先看后听”方法解决了语音识别中的视觉干扰问题

    研究人员开发了一种名为Visually-Anchored Policy Optimization (VAPO) 的新方法,以提高在存在视觉幻灯片内容时的语音识别能力。全模态大语言模型 (OLLMs) 经常遭受“视觉干扰”,即它们会从可见文本中幻觉出所说的词语。VAPO通过将模型的过程分解为独立的视觉先验提取和转录生成步骤来解决这个问题,模仿人类的“先看后听”行为。这种方法以及一个名为SlideASR-Bench的新基准,显著减少了专业…