研究人员推出SceneBench,一个旨在评估视频理解模型在长视频中(尤其是在不同场景之间)保持上下文能力的新基准。他们的发现表明,当前的视觉语言模型(VLMs)在被问及需要对扩展时间信息进行推理的问题时,会表现出显著的遗忘。为了解决这个问题,他们提出了Scene-RAG,一种检索增强生成方法,通过动态整合跨场景的相关上下文,将VLM性能提高了2.50%,凸显了在为VLM开发稳健的长上下文保留能力方面持续存在的挑战。 AI
影响 强调了当前VLMs在长上下文视频理解方面的局限性,可能指导未来研究朝着更稳健的时间推理能力发展。
排序理由 这是一篇介绍用于评估视频理解模型的新基准和方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →