研究人员开发了ProMSA,一种用于知识库视觉问答(KB-VQA)的新型代理。与使用固定检索管道的先前方法不同,ProMSA根据工具调用预算和去重情况,自适应地选择图像搜索、文本搜索或停止。该代理使用拒绝采样SFT和一种称为TN-GSPO的序列级RL目标进行训练。在E-VQA和InfoSeek数据集上的实验表明,与现有的RAG和代理基线相比,ProMSA在检索和端到端准确性方面有所提高。 AI
影响 推动了多模态任务的基于代理的推理,有可能改进复杂的جست information retrieval systems。
排序理由 发布了一篇详细介绍新型AI代理及其方法论的研究论文。
- arXiv
- E-VQA
- Infoseek
- KB-VQA
- ProMSA
- retrieval-augmented generation
- alphaXiv
- CatalyzeX
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Knowledge-based Visual Question Answering
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →