研究人员开发了一个名为“Ground Then Rank”(GTR)的新框架,以提高知识型视觉问答(KB-VQA)的性能。该方法将实体识别与证据排序解耦,解决了现有跨模态检索增强生成(MM-RAG)方法的局限性。通过首先提示一个跨模态大语言模型(MLLM)从候选列表中识别高置信度实体,然后使用现成的重排序器进行证据选择,GTR在Encyclopedic-VQA和InfoSeek等基准测试中取得了优异的结果,同时降低了计算复杂度。 AI
影响 这项研究为KB-VQA提供了一种更有效、更高效的方法,有望改善AI系统基于视觉和外部知识理解和回答问题的能力。
排序理由 该集群包含一篇详细介绍KB-VQA新方法的论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
- Encyclopedic-VQA
- Ground Then Rank
- InfoSeek
- Knowledge-Based Visual Question Answering
- multi-modal large language models
- multi-modal retrieval augmented generation
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →