新研究解决了长视频中的时空视频基础问题

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-30 04:00

两篇新研究论文探讨了时空视频基础的进展，这是一种根据自然语言查询精确地在长视频中定位对象的技术。第一篇论文介绍了一个将帧级跟踪转变为秒级跟踪的流水线，并使用强化学习来改进推理和定位。第二篇论文提出了一种自回归Transformer架构，该架构通过顺序处理、整合记忆库和采用级联时空定位方法来应对长视频的挑战。 AI

影响这些进展可以实现对扩展视频内容中对象更高效、更准确的跟踪，从而影响监控、内容分析和自主系统等应用。

排序理由两篇arXiv论文详细介绍了时空视频基础的新颖方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Tianshu Zhang, Yan Wang, Ji Qi, Lijie Wen · 2026-06-30 04:00

Efficient Spatio-Temporal Grounding with Multimodal Large Models via Second-Level Tracking and RL Verification

arXiv:2606.29023v1 Announce Type: cross Abstract: Spatio-temporal grounding in long videos requires precise temporal localization and robust object tracking conditioned on natural-language queries. While recent vision-language models (VLMs) show strong reasoning ability, directly…
arXiv cs.CV TIER_1 English(EN) · Xin Gu, Bing Fan, Jiali Yao, Zhipeng Zhang, Yan Huang, Cheng Han, Heng Fan, Libo Zhang · 2026-06-30 04:00

Towards Long-Form Spatio-Temporal Video Grounding

arXiv:2602.23294v2 Announce Type: replace Abstract: In real scenarios, videos can span several minutes or even hours. However, existing research on spatio-temporal video grounding (STVG), given a textual query, mainly focuses on localizing targets in short videos of tens of secon…

报道来源 [2]

Efficient Spatio-Temporal Grounding with Multimodal Large Models via Second-Level Tracking and RL Verification

Towards Long-Form Spatio-Temporal Video Grounding

相关实体

相关话题