研究人员推出了一种名为语义证据奖励(SER)的新方法,旨在改进多模态大型语言模型(MLLM)在细粒度时空推理方面的能力。SER将证据定位重构为一个验证任务,使用一个裁判VLM来评估模型生成的证据的相关性和定位质量,并加入时间惩罚。该方法减少了对密集标注的需求,并允许在标准的视频问答数据上进行训练。SER在V-STAR基准测试中表现出显著的改进,达到了49.6%的mLGM,比一个强大的基线模型高出3.0个百分点。 AI
影响 增强了MLLM中的视频推理能力,有望提高复杂视频分析任务的准确性和定位能力。
排序理由 该集群包含一篇详细介绍新AI模型改进方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →