PulseAugur
实时 21:24:49
English(EN) ReTool-Video: Recursive Tool-Using Video Agents with Meta-Augmented Tool Grounding

ReTool-Video 通过递归工具使用增强视频代理

研究人员推出了 ReTool-Video,这是一种用于视频理解代理的新颖方法,可增强其推理能力。该方法利用一个包含 134 个专用工具的扩展工具库,包括用于过滤和聚合的元工具,以支持细粒度的组合推理。ReTool-Video 将高级视频意图递归地分解为可执行的工具链,从而实现动态参数修复和工具替换,以实现复杂的多模态操作。实验表明,ReTool-Video 在多个视频理解基准测试中优于现有基线。 AI

影响 通过更复杂的推理和工具利用能力来增强视频理解代理。

排序理由 发表了一篇详细介绍视频代理新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

ReTool-Video 通过递归工具使用增强视频代理

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Jiang Zhong ·

    ReTool-Video: Recursive Tool-Using Video Agents with Meta-Augmented Tool Grounding

    Video understanding requires active evidence seeking, motivating tool-augmented video agents for temporal reasoning, cross-modal understanding, and complex question answering. Existing video agents have improved video reasoning with retrieval, memory, frame inspection, and verifi…