新基准揭示视频模型遗忘长期上下文

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员推出SceneBench，一个旨在评估视频理解模型在长视频中（尤其是在不同场景之间）保持上下文能力的新基准。他们的发现表明，当前的视觉语言模型（VLMs）在被问及需要对扩展时间信息进行推理的问题时，会表现出显著的遗忘。为了解决这个问题，他们提出了Scene-RAG，一种检索增强生成方法，通过动态整合跨场景的相关上下文，将VLM性能提高了2.50%，凸显了在为VLM开发稳健的长上下文保留能力方面持续存在的挑战。 AI

影响强调了当前VLMs在长上下文视频理解方面的局限性，可能指导未来研究朝着更稳健的时间推理能力发展。

排序理由这是一篇介绍用于评估视频理解模型的新基准和方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Seng Nam Chen, Hao Chen, Chenglam Ho, Xinyu Mao, Jinping Wang, Yu Zhang, Chao Li · 2026-05-05 04:00

场景感知很重要：利用场景感知长视频基准揭示视频理解模型的遗忘现象

arXiv:2603.27259v2 Announce Type: replace Abstract: Long video understanding (LVU) remains a core challenge in multimodal learning. Although recent vision-language models (VLMs) have made notable progress, existing benchmarks mainly focus on either fine-grained perception or coar…

报道来源 [1]

场景感知很重要：利用场景感知长视频基准揭示视频理解模型的遗忘现象

相关实体

相关话题