PulseAugur
实时 20:13:45
English(EN) Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

新的ODE框架提升多模态搜索代理性能,超越Gemini Pro

研究人员开发了一个名为在线策略数据演化(ODE)的新框架,以改进多模态深度搜索代理。该系统允许代理重用搜索结果中的中间视觉信息,并根据代理当前的学习进展动态地优化训练数据。ODE在各种基准测试中提升了代理的性能,尤其是在复杂代理工作流设置中,Qwen3-VL模型的性能得到了显著提升,超越了Gemini-2.5 Pro。 AI

影响 通过实现更好的数据演化和视觉上下文重用,增强了多模态搜索代理的能力,有望在复杂任务上提升性能。

排序理由 该集群包含一篇详细介绍新框架及其在基准测试中性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的ODE框架提升多模态搜索代理性能,超越Gemini Pro

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yi R. Fung ·

    Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

    Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, …