研究人员开发了一种名为ToolMerge的新方法,用于从长视频中检索关键帧,这对于问答任务特别有用。该方法利用大型语言模型(LLM)将复杂查询分解为较小的工具调用,然后合并结果。该方法在一个名为Molmo-2 Moments (M2M)的新基准上进行了评估,在字幕检索方面比现有技术提高了5%。 AI
影响 引入了一种新颖的基于LLM的视频关键帧检索方法,有望提高AI理解和查询长视频内容的能力。
排序理由 该集群包含一篇详细介绍新方法和基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →