English(EN) Decomposing Queries into Tool Calls for Long-Video Keyframe Retrieval

LLM驱动的ToolMerge改进视频关键帧检索

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-22 16:29

研究人员开发了一种名为ToolMerge的新方法，用于从长视频中检索关键帧，这对于问答任务特别有用。该方法利用大型语言模型（LLM）将复杂查询分解为较小的工具调用，然后合并结果。该方法在一个名为Molmo-2 Moments (M2M)的新基准上进行了评估，在字幕检索方面比现有技术提高了5%。 AI

影响引入了一种新颖的基于LLM的视频关键帧检索方法，有望提高AI理解和查询长视频内容的能力。

排序理由该集群包含一篇详细介绍新方法和基准的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Michal Shlapentokh-Rothman, Prachi Garg, Yu-Xiong Wang, Derek Hoiem · 2026-05-25 04:00

将查询分解为工具调用以进行长视频关键帧检索

arXiv:2605.23826v1 Announce Type: cross Abstract: Keyframe selection is a direct way to provide verifiable visual evidence for long-video question answering (QA). Queries differ in what they require, and finding the right frames depends on knowing what to look for. Existing keyfr…
arXiv cs.CV TIER_1 English(EN) · Derek Hoiem · 2026-05-22 16:29

将查询分解为工具调用以进行长视频关键帧检索

Keyframe selection is a direct way to provide verifiable visual evidence for long-video question answering (QA). Queries differ in what they require, and finding the right frames depends on knowing what to look for. Existing keyframe selectors either score every frame against a s…

报道来源 [2]

将查询分解为工具调用以进行长视频关键帧检索

将查询分解为工具调用以进行长视频关键帧检索

相关实体

相关话题