English(EN) AdaTooler-V: Adaptive Tool-Use for Images and Videos

AdaTooler-V 研究改进了多模态大语言模型自适应视觉工具的使用

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 04:00

研究人员推出 AdaTooler-V，这是一种多模态大语言模型，旨在提高视觉推理任务的效率。与之前有时会不必要地调用视觉工具的模型不同，AdaTooler-V 能自适应地确定何时使用工具是有益的。这是通过一种强化学习算法实现的，该算法根据调用工具的感知收益来调整奖励尺度，鼓励更明智地使用资源。该模型在多个基准测试中表现强劲，其 7B 参数版本在 V* 基准测试上的准确性高于 GPT-4o 和 Gemini 1.5 Pro。 AI

影响通过减少不必要的工具调用来提高多模态大语言模型的效率，可能降低推理成本并提高视觉推理任务的性能。

排序理由该集群描述了一篇新的研究论文，其中详细介绍了一种具有自适应工具使用能力的新型多模态大语言模型。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue · 2026-04-29 04:00

AdaTooler-V: Adaptive Tool-Use for Images and Videos

arXiv:2512.16918v3 Announce Type: replace Abstract: Recent advances have shown that multimodal large language models (MLLMs) benefit from multimodal interleaved chain-of-thought (CoT) with vision tool interactions. However, existing open-source models often exhibit blind tool-use…

报道来源 [1]

AdaTooler-V: Adaptive Tool-Use for Images and Videos

相关实体

相关话题