English(EN) Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

新的SPORT方法在无需人类数据的情况下训练多模态代理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-12 04:00

研究人员开发了一种名为SPORT（分步偏好调整）的新颖方法，无需依赖大量人工标注数据即可训练多模态代理。该方法使用任务合成、步采样、步验证和偏好调整的迭代过程，使代理能够自主发现有效的工具使用策略。在GTA和GAIA基准上的评估显示，代理性能有了显著提高，突显了该方法的泛化能力。 AI

影响通过减少对人工标注的依赖，实现了更高效的多模态代理训练，可能加速开发和部署。

排序理由该集群描述了一篇关于训练AI代理的新颖方法的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Pengxiang Li, Zhi Gao, Bofei Zhang, Yapeng Mi, Xiaojian Ma, Chenrui Shi, Tao Yuan, Yuwei Wu, Yunde Jia, Song-Chun Zhu, Qing Li · 2026-06-12 04:00

面向多模态智能体的迭代式工具使用探索与分步偏好调优

arXiv:2504.21561v5 Announce Type: replace Abstract: Multimodal agents, which integrate a controller e.g., a vision language model) with external tools, have demonstrated remarkable capabilities in tackling complex multimodal tasks. Existing approaches for training these agents, b…