PulseAugur
实时 02:49:37

新的“Ground Then Rank”方法提升了知识型视觉问答能力

研究人员开发了一个名为“Ground Then Rank”(GTR)的新框架,以提高知识型视觉问答(KB-VQA)的性能。该方法将实体识别与证据排序解耦,解决了现有跨模态检索增强生成(MM-RAG)方法的局限性。通过首先提示一个跨模态大语言模型(MLLM)从候选列表中识别高置信度实体,然后使用现成的重排序器进行证据选择,GTR在Encyclopedic-VQA和InfoSeek等基准测试中取得了优异的结果,同时降低了计算复杂度。 AI

影响 这项研究为KB-VQA提供了一种更有效、更高效的方法,有望改善AI系统基于视觉和外部知识理解和回答问题的能力。

排序理由 该集群包含一篇详细介绍KB-VQA新方法的论文。

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的“Ground Then Rank”方法提升了知识型视觉问答能力

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Qian Ma, Qiong Wu, Zhengyi Zhou, Yao Ma ·

    先排序后接地:通过无训练实体识别重新审视知识库问答

    arXiv:2606.23881v1 Announce Type: new Abstract: Knowledge-Based Visual Question Answering (KB-VQA) requires grounding visual queries to external knowledge beyond directly observable content in images. While recent multi modal large language models (MLLMs) show strong perceptual a…

  2. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Yao Ma ·

    先排序后打分:利用无训练实体识别重新审视基于知识的VQA

    Knowledge-Based Visual Question Answering (KB-VQA) requires grounding visual queries to external knowledge beyond directly observable content in images. While recent multi modal large language models (MLLMs) show strong perceptual abilities, they struggle on KB-VQA tasks requirin…