PulseAugur
实时 10:57:08
English(EN) VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

VideoDetective框架增强了MLLM对长视频的理解能力

研究人员推出了一种名为VideoDetective的新型框架,旨在增强多模态大语言模型(MLLMs)对长视频的理解能力。该方法通过整合基于查询的相关性和视频内在的结构关系,解决了上下文窗口有限的挑战。VideoDetective构建了一个视觉-时间亲和图,并采用假设-验证-精炼循环来识别关键视频片段,以实现准确的问题回答。实验表明,在VideoMME-long基准测试上,准确率显著提高了7.5%。 AI

影响 改进了MLLM对长视频的分析能力,可能为视频搜索和摘要等更复杂的应用带来可能。

排序理由 这是一篇描述视频理解新框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

VideoDetective框架增强了MLLM对长视频的理解能力

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Ruoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu ·

    VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

    arXiv:2603.22285v2 Announce Type: replace Abstract: Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantl…