English(EN) ProMSA:Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering

新的ProMSA代理增强了知识驱动的视觉问答能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 11:23

研究人员推出了一种新颖的代理ProMSA，用于知识驱动的视觉问答（KB-VQA）。与依赖固定检索流程的先前方法不同，ProMSA在图像搜索、文本搜索或停止之间进行渐进式选择，并设有明确的工具调用预算和去重机制以防止冗余搜索。该代理通过结合用于工具使用格式的拒绝采样监督微调（SFT）和一种称为TN-GSPO的序列级强化学习（RL）目标进行训练。在E-VQA和InfoSeek数据集上的实验表明，与现有的检索增强生成（RAG）和代理基线相比，ProMSA在检索和端到端准确性方面均表现更优。 AI

影响这种新代理可以提高需要根据视觉和文本信息回答问题的AI系统的准确性和效率。

排序理由该集群包含一篇详细介绍特定AI任务的新模型/代理的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Haoqian Wang · 2026-06-26 11:23

ProMSA：面向知识密集型视觉问答的渐进式多模态搜索代理

Knowledge-based Visual Question Answering (KB-VQA) requires models to combine image understanding with external knowledge. Most prior methods use a fixed retrieve-then-generate pipeline with a pre-selected retriever and a static top-k setting, which is not adaptive during reasoni…

报道来源 [1]

ProMSA：面向知识密集型视觉问答的渐进式多模态搜索代理

相关实体

相关话题