研究人员开发了一个名为On-policy Data Evolution (ODE)的新框架,以改进多模态深度搜索代理。ODE解决了两个关键限制:无法复用搜索结果中的中间视觉信息以及训练数据的静态性质。该系统引入了一个用于可复用视觉上下文的图像库引用协议和一个基于代理当前能力优化训练数据的闭环数据生成器。这种方法显著提升了代理的性能,一个经过ODE增强的Qwen3-VL-8B模型在基准测试中的平均得分达到了39.0%,超过了Gemini-2.5 Pro。 AI
影响 通过实现可复用的视觉上下文和自适应训练数据,增强了多模态代理的能力,有望提高在复杂搜索和推理任务上的性能。
排序理由 该集群包含一篇研究论文,详细介绍了新框架及其在基准测试中的性能改进。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →