English(EN) LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

LongVT框架通过工具调用增强AI视频推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了LongVT，一个旨在改进大型多模态模型（LMM）处理和推理长视频方式的新框架。该方法通过先浏览整个视频，然后聚焦于特定片段以获取细节来模仿人类理解，并利用LMM的原生时间定位能力作为放大相关片段的工具。为了支持这一点，一个新的名为VideoSIAH的数据集已被整理，其中包含超过247,000个用于监督微调的样本以及用于强化学习的额外数据，还有一个包含1,280个问答对的基准测试。LongVT在几个具有挑战性的长视频理解基准测试中表现优于现有方法。 AI

影响引入了一种处理长视频的新方法，可能改进视频分析和内容理解方面的应用。

排序理由发布了一篇详细介绍用于AI视频理解的新框架和数据集的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Bo Li, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing · 2026-05-22 04:00

LongVT：通过原生工具调用激励“长视频思考”

arXiv:2511.20785v3 Announce Type: replace Abstract: Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse…

报道来源 [1]

LongVT：通过原生工具调用激励“长视频思考”

相关实体

相关话题