PulseAugur
实时 03:32:04
English(EN) SER: Learning to Ground Video Reasoning with Semantic Evidence Rewards

新的SER方法增强了MLLM中的视频推理能力

研究人员推出了一种名为语义证据奖励(SER)的新方法,旨在改进多模态大型语言模型(MLLM)在细粒度时空推理方面的能力。SER将证据定位重构为一个验证任务,使用一个裁判VLM来评估模型生成的证据的相关性和定位质量,并加入时间惩罚。该方法减少了对密集标注的需求,并允许在标准的视频问答数据上进行训练。SER在V-STAR基准测试中表现出显著的改进,达到了49.6%的mLGM,比一个强大的基线模型高出3.0个百分点。 AI

影响 增强了MLLM中的视频推理能力,有望提高复杂视频分析任务的准确性和定位能力。

排序理由 该集群包含一篇详细介绍新AI模型改进方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的SER方法增强了MLLM中的视频推理能力

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Sheng Xia, Zhengqin Lai, Tianxiang Jiang, Kanghui Tian, Shoujun Zhou, Bin Li, Yi Wang ·

    SER:通过语义证据奖励学习视频推理的接地

    arXiv:2606.24726v1 Announce Type: new Abstract: Video MLLMs often struggle with fine-grained spatio-temporal reasoning, sometimes generating correct answers based on irrelevant frames or objects. Although outputting spatio-temporal evidence during reasoning is a promising directi…

  2. arXiv cs.CV TIER_1 English(EN) · Yi Wang ·

    SER:通过语义证据奖励学习视频推理的接地

    Video MLLMs often struggle with fine-grained spatio-temporal reasoning, sometimes generating correct answers based on irrelevant frames or objects. Although outputting spatio-temporal evidence during reasoning is a promising direction, existing RL frameworks typically rely on geo…