English(EN) VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

VideoDetective框架增强了MLLM对长视频的理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-04 04:00

研究人员推出了一种名为VideoDetective的新型框架，旨在增强多模态大语言模型（MLLMs）对长视频的理解能力。该方法通过整合基于查询的相关性和视频内在的结构关系，解决了上下文窗口有限的挑战。VideoDetective构建了一个视觉-时间亲和图，并采用假设-验证-精炼循环来识别关键视频片段，以实现准确的问题回答。实验表明，在VideoMME-long基准测试上，准确率显著提高了7.5%。 AI

影响改进了MLLM对长视频的分析能力，可能为视频搜索和摘要等更复杂的应用带来可能。

排序理由这是一篇描述视频理解新框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Ruoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu · 2026-05-04 04:00

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

arXiv:2603.22285v2 Announce Type: replace Abstract: Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantl…

报道来源 [1]

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

相关实体

相关话题