研究人员推出 AdaTooler-V,这是一种多模态大语言模型,旨在提高视觉推理任务的效率。与之前有时会不必要地调用视觉工具的模型不同,AdaTooler-V 能自适应地确定何时使用工具是有益的。这是通过一种强化学习算法实现的,该算法根据调用工具的感知收益来调整奖励尺度,鼓励更明智地使用资源。该模型在多个基准测试中表现强劲,其 7B 参数版本在 V* 基准测试上的准确性高于 GPT-4o 和 Gemini 1.5 Pro。 AI
影响 通过减少不必要的工具调用来提高多模态大语言模型的效率,可能降低推理成本并提高视觉推理任务的性能。
排序理由 该集群描述了一篇新的研究论文,其中详细介绍了一种具有自适应工具使用能力的新型多模态大语言模型。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →