PulseAugur
实时 20:42:11

研究发现 Video-LLM 在时间信息流方面存在困难

研究人员发现,视频大型语言模型(Video-LLMs)在处理时间信息方面存在一个重大的瓶颈,这阻碍了它们理解视频播放方向的能力。虽然以视频为中心的编码器可以有效地捕捉时间信号,但标准的 Video-LLM 架构通常无法可靠地传递这些信息。研究强调,投影层是一个关键组成部分,某些设计会破坏时间数据,而保留时间的 MLP 投影可以改善信息流。通过优化编码器、投影器并纳入特定的监督,一个新的 Video-LLM 在时间推理任务上达到了接近人类的准确率。 AI

影响 识别了 Video-LLM 在时间推理方面的关键架构限制,为提高视频理解任务的性能指明了方向。

排序理由 学术论文,详细介绍了诊断和改进 Video-LLM 中时间信息流的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究发现 Video-LLM 在时间信息流方面存在困难

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Shigeru Kitazawa ·

    Tracing the Arrow of Time: Diagnosing Temporal Information Flow in Video-LLMs

    The Arrow-of-Time (AoT) task, determining whether a video plays forward or backward by recognizing temporal irreversibility, is one humans solve with near-perfect accuracy, yet frontier Video Large Language Models (Video-LLMs) perform only modestly above chance. This gap raises a…