研究发现 Video-LLM 在时间信息流方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 10:40

研究人员发现，视频大型语言模型（Video-LLMs）在处理时间信息方面存在一个重大的瓶颈，这阻碍了它们理解视频播放方向的能力。虽然以视频为中心的编码器可以有效地捕捉时间信号，但标准的 Video-LLM 架构通常无法可靠地传递这些信息。研究强调，投影层是一个关键组成部分，某些设计会破坏时间数据，而保留时间的 MLP 投影可以改善信息流。通过优化编码器、投影器并纳入特定的监督，一个新的 Video-LLM 在时间推理任务上达到了接近人类的准确率。 AI

影响识别了 Video-LLM 在时间推理方面的关键架构限制，为提高视频理解任务的性能指明了方向。

排序理由学术论文，详细介绍了诊断和改进 Video-LLM 中时间信息流的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Shigeru Kitazawa · 2026-05-08 10:40

追踪时间之箭：诊断视频大模型中的时间信息流

The Arrow-of-Time (AoT) task, determining whether a video plays forward or backward by recognizing temporal irreversibility, is one humans solve with near-perfect accuracy, yet frontier Video Large Language Models (Video-LLMs) perform only modestly above chance. This gap raises a…

报道来源 [1]

追踪时间之箭：诊断视频大模型中的时间信息流

相关实体

相关话题