新的ODE框架通过可复用的视觉信息提升了多模态AI代理的性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员开发了一个名为On-policy Data Evolution (ODE)的新框架，以改进多模态深度搜索代理。ODE解决了两个关键限制：无法复用搜索结果中的中间视觉信息以及训练数据的静态性质。该系统引入了一个用于可复用视觉上下文的图像库引用协议和一个基于代理当前能力优化训练数据的闭环数据生成器。这种方法显著提升了代理的性能，一个经过ODE增强的Qwen3-VL-8B模型在基准测试中的平均得分达到了39.0%，超过了Gemini-2.5 Pro。 AI

影响通过实现可复用的视觉上下文和自适应训练数据，增强了多模态代理的能力，有望提高在复杂搜索和推理任务上的性能。

排序理由该集群包含一篇研究论文，详细介绍了新框架及其在基准测试中的性能改进。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Shijue Huang, Hangyu Guo, Guanting Dong, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung · 2026-06-08 04:00

迈向视觉原生多模态深度搜索智能体的 on-policy 数据演化

arXiv:2605.10832v2 Announce Type: replace Abstract: Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use h…

报道来源 [1]

迈向视觉原生多模态深度搜索智能体的 on-policy 数据演化

相关实体

相关话题