新的“Ground Then Rank”方法提升了知识型视觉问答能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-22 19:27

研究人员开发了一个名为“Ground Then Rank”（GTR）的新框架，以提高知识型视觉问答（KB-VQA）的性能。该方法将实体识别与证据排序解耦，解决了现有跨模态检索增强生成（MM-RAG）方法的局限性。通过首先提示一个跨模态大语言模型（MLLM）从候选列表中识别高置信度实体，然后使用现成的重排序器进行证据选择，GTR在Encyclopedic-VQA和InfoSeek等基准测试中取得了优异的结果，同时降低了计算复杂度。 AI

影响这项研究为KB-VQA提供了一种更有效、更高效的方法，有望改善AI系统基于视觉和外部知识理解和回答问题的能力。

排序理由该集群包含一篇详细介绍KB-VQA新方法的论文。

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Qian Ma, Qiong Wu, Zhengyi Zhou, Yao Ma · 2026-06-24 04:00

先排序后接地：通过无训练实体识别重新审视知识库问答

arXiv:2606.23881v1 Announce Type: new Abstract: Knowledge-Based Visual Question Answering (KB-VQA) requires grounding visual queries to external knowledge beyond directly observable content in images. While recent multi modal large language models (MLLMs) show strong perceptual a…
arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Yao Ma · 2026-06-22 19:27

先排序后打分：利用无训练实体识别重新审视基于知识的VQA

Knowledge-Based Visual Question Answering (KB-VQA) requires grounding visual queries to external knowledge beyond directly observable content in images. While recent multi modal large language models (MLLMs) show strong perceptual abilities, they struggle on KB-VQA tasks requirin…

报道来源 [2]

先排序后接地：通过无训练实体识别重新审视知识库问答

先排序后打分：利用无训练实体识别重新审视基于知识的VQA

相关实体

相关话题