PulseAugur
实时 20:10:52
English(EN) Decomposing Queries into Tool Calls for Long-Video Keyframe Retrieval

LLM驱动的ToolMerge改进视频关键帧检索

研究人员开发了一种名为ToolMerge的新方法,用于从长视频中检索关键帧,这对于问答任务特别有用。该方法利用大型语言模型(LLM)将复杂查询分解为较小的工具调用,然后合并结果。该方法在一个名为Molmo-2 Moments (M2M)的新基准上进行了评估,在字幕检索方面比现有技术提高了5%。 AI

影响 引入了一种新颖的基于LLM的视频关键帧检索方法,有望提高AI理解和查询长视频内容的能力。

排序理由 该集群包含一篇详细介绍新方法和基准的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Michal Shlapentokh-Rothman, Prachi Garg, Yu-Xiong Wang, Derek Hoiem ·

    将查询分解为工具调用以进行长视频关键帧检索

    arXiv:2605.23826v1 Announce Type: cross Abstract: Keyframe selection is a direct way to provide verifiable visual evidence for long-video question answering (QA). Queries differ in what they require, and finding the right frames depends on knowing what to look for. Existing keyfr…

  2. arXiv cs.CV TIER_1 English(EN) · Derek Hoiem ·

    将查询分解为工具调用以进行长视频关键帧检索

    Keyframe selection is a direct way to provide verifiable visual evidence for long-video question answering (QA). Queries differ in what they require, and finding the right frames depends on knowing what to look for. Existing keyframe selectors either score every frame against a s…