研究人员推出了一种新颖的代理ProMSA,用于知识驱动的视觉问答(KB-VQA)。与依赖固定检索流程的先前方法不同,ProMSA在图像搜索、文本搜索或停止之间进行渐进式选择,并设有明确的工具调用预算和去重机制以防止冗余搜索。该代理通过结合用于工具使用格式的拒绝采样监督微调(SFT)和一种称为TN-GSPO的序列级强化学习(RL)目标进行训练。在E-VQA和InfoSeek数据集上的实验表明,与现有的检索增强生成(RAG)和代理基线相比,ProMSA在检索和端到端准确性方面均表现更优。 AI
影响 这种新代理可以提高需要根据视觉和文本信息回答问题的AI系统的准确性和效率。
排序理由 该集群包含一篇详细介绍特定AI任务的新模型/代理的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →