English(EN) MemoryCard: Topic-Aware Multi-Modal Clue Compression for Long-Video Question Answering

新方法通过压缩内容和改进时序推理来提升视频问答能力

作者 PulseAugur 编辑部 · [4 个来源] · 2026-06-02 04:00

研究人员开发了新的方法来改进长视频问答（VQA）。其中一种方法 MemoryCard 将视频内容压缩成面向主题的“记忆卡”，以更好地捕捉事件级语义，并将准确率提高高达 21.8%。另一种方法 TLG 通过重建视频时间线并将问题路由到专用模型来专注于时序逻辑推理，在正式的时序逻辑推理基准测试中实现了 24.5 的绝对准确率提升。另一项关于隐式视频问答的研究表明，对于当前基准测试而言，感知能力比高级推理技术更关键。 AI

影响视频理解和推理方面的进步可以为内容分析、监控和交互式媒体等领域带来更复杂的人工智能应用。

排序理由多篇研究论文介绍了用于视频问答的新方法和模型。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。我们如何撰写摘要 →

报道来源 [4]

arXiv cs.CL TIER_1 English(EN) · Qing Yang, Pengcheng Huang, Xinze Li, Zhenghao Liu, Yukun Yan, Yu Gu, Ge Yu, Gang Li, Maosong Sun · 2026-06-05 04:00

MemoryCard：面向长视频问答的面向主题的多模态线索压缩

arXiv:2606.05917v1 Announce Type: cross Abstract: Long-video question answering remains challenging for Vision-Language Models (VLMs), as answer-relevant evidence is often sparse, transient, and temporally dispersed across lengthy video contexts. Existing frame-centric approaches…
arXiv cs.CL TIER_1 English(EN) · Maosong Sun · 2026-06-04 09:23

MemoryCard：面向长视频问答的面向主题的多模态线索压缩

Long-video question answering remains challenging for Vision-Language Models (VLMs), as answer-relevant evidence is often sparse, transient, and temporally dispersed across lengthy video contexts. Existing frame-centric approaches improve efficiency through uniform sampling, quer…
arXiv cs.LG TIER_1 English(EN) · Ali Alavi · 2026-06-02 04:00

感知优先：一种具有自一致性的前沿原生视频模型，用于隐式视频问答

arXiv:2606.01485v1 Announce Type: cross Abstract: We describe our submission to the VRR Challenge @ CVPR 2026, built on the \emph{ImplicitQA} / \emph{VRR-QA} benchmark~\cite{implicitqa}: multiple-choice video question answering in which answers are deliberately \emph{not} observa…
arXiv cs.LG TIER_1 English(EN) · Ali Alavi · 2026-06-02 04:00

TLG：通过源标注重建和类别目标推理实现视频问答的时间逻辑基础

arXiv:2606.01591v1 Announce Type: cross Abstract: The TimeLogic Challenge evaluates formal temporal-logic reasoning over video - 16 operators (before, after, until, since, always, co-occur, ordering, ...) in boolean and 4-way multiple-choice form. End-to-end video-language models…

报道来源 [4]

MemoryCard：面向长视频问答的面向主题的多模态线索压缩

MemoryCard：面向长视频问答的面向主题的多模态线索压缩

感知优先：一种具有自一致性的前沿原生视频模型，用于隐式视频问答

TLG：通过源标注重建和类别目标推理实现视频问答的时间逻辑基础

相关实体

相关话题