PulseAugur
实时 04:29:02
English(EN) ProMSA:Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering

新的ProMSA代理增强了知识驱动的视觉问答能力

研究人员推出了一种新颖的代理ProMSA,用于知识驱动的视觉问答(KB-VQA)。与依赖固定检索流程的先前方法不同,ProMSA在图像搜索、文本搜索或停止之间进行渐进式选择,并设有明确的工具调用预算和去重机制以防止冗余搜索。该代理通过结合用于工具使用格式的拒绝采样监督微调(SFT)和一种称为TN-GSPO的序列级强化学习(RL)目标进行训练。在E-VQA和InfoSeek数据集上的实验表明,与现有的检索增强生成(RAG)和代理基线相比,ProMSA在检索和端到端准确性方面均表现更优。 AI

影响 这种新代理可以提高需要根据视觉和文本信息回答问题的AI系统的准确性和效率。

排序理由 该集群包含一篇详细介绍特定AI任务的新模型/代理的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的ProMSA代理增强了知识驱动的视觉问答能力

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Haoqian Wang ·

    ProMSA:面向知识密集型视觉问答的渐进式多模态搜索代理

    Knowledge-based Visual Question Answering (KB-VQA) requires models to combine image understanding with external knowledge. Most prior methods use a fixed retrieve-then-generate pipeline with a pre-selected retriever and a static top-k setting, which is not adaptive during reasoni…