English(EN) SER: Learning to Ground Video Reasoning with Semantic Evidence Rewards

新的SER方法增强了MLLM中的视频推理能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-23 15:50

研究人员推出了一种名为语义证据奖励（SER）的新方法，旨在改进多模态大型语言模型（MLLM）在细粒度时空推理方面的能力。SER将证据定位重构为一个验证任务，使用一个裁判VLM来评估模型生成的证据的相关性和定位质量，并加入时间惩罚。该方法减少了对密集标注的需求，并允许在标准的视频问答数据上进行训练。SER在V-STAR基准测试中表现出显著的改进，达到了49.6%的mLGM，比一个强大的基线模型高出3.0个百分点。 AI

影响增强了MLLM中的视频推理能力，有望提高复杂视频分析任务的准确性和定位能力。

排序理由该集群包含一篇详细介绍新AI模型改进方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Sheng Xia, Zhengqin Lai, Tianxiang Jiang, Kanghui Tian, Shoujun Zhou, Bin Li, Yi Wang · 2026-06-24 04:00

SER：通过语义证据奖励学习视频推理的接地

arXiv:2606.24726v1 Announce Type: new Abstract: Video MLLMs often struggle with fine-grained spatio-temporal reasoning, sometimes generating correct answers based on irrelevant frames or objects. Although outputting spatio-temporal evidence during reasoning is a promising directi…
arXiv cs.CV TIER_1 English(EN) · Yi Wang · 2026-06-23 15:50

SER：通过语义证据奖励学习视频推理的接地

Video MLLMs often struggle with fine-grained spatio-temporal reasoning, sometimes generating correct answers based on irrelevant frames or objects. Although outputting spatio-temporal evidence during reasoning is a promising direction, existing RL frameworks typically rely on geo…

报道来源 [2]

SER：通过语义证据奖励学习视频推理的接地

SER：通过语义证据奖励学习视频推理的接地

相关实体

相关话题