PulseAugur
实时 08:45:43
English(EN) Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

新的SPORT方法在无需人类数据的情况下训练多模态代理

研究人员开发了一种名为SPORT(分步偏好调整)的新颖方法,无需依赖大量人工标注数据即可训练多模态代理。该方法使用任务合成、步采样、步验证和偏好调整的迭代过程,使代理能够自主发现有效的工具使用策略。在GTA和GAIA基准上的评估显示,代理性能有了显著提高,突显了该方法的泛化能力。 AI

影响 通过减少对人工标注的依赖,实现了更高效的多模态代理训练,可能加速开发和部署。

排序理由 该集群描述了一篇关于训练AI代理的新颖方法的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Pengxiang Li, Zhi Gao, Bofei Zhang, Yapeng Mi, Xiaojian Ma, Chenrui Shi, Tao Yuan, Yuwei Wu, Yunde Jia, Song-Chun Zhu, Qing Li ·

    Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

    arXiv:2504.21561v5 Announce Type: replace Abstract: Multimodal agents, which integrate a controller e.g., a vision language model) with external tools, have demonstrated remarkable capabilities in tackling complex multimodal tasks. Existing approaches for training these agents, b…