实体
Knowledge-based visual question answering
Knowledge-based visual question answering
PulseAugur coverage of Knowledge-based visual question answering — every cluster mentioning Knowledge-based visual question answering across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的“Ground Then Rank”方法提升了知识型视觉问答能力
研究人员开发了一个名为“Ground Then Rank”(GTR)的新框架,以提高知识型视觉问答(KB-VQA)的性能。该方法将实体识别与证据排序解耦,解决了现有跨模态检索增强生成(MM-RAG)方法的局限性。通过首先提示一个跨模态大语言模型(MLLM)从候选列表中识别高置信度实体,然后使用现成的重排序器进行证据选择,GTR在Encyclopedic-VQA和InfoSeek等基准测试中取得了优异的结果,同时降低了计算复杂度。
-
新研究揭示多模态AI问答系统中的“末尾丢失”偏见
一篇新研究论文介绍了“末尾丢失”效应,证明多模态检索增强问答系统表现出首位偏见,这与纯文本模型表现出的“中间丢失”效应不同。这意味着检索到的段落开头的信息比结尾的信息更有可能被系统利用。该研究在三个开源的7B/8B VLM阅读器上进行了测试,发现将正确答案放在上下文的开头,与放在结尾相比,性能提高了16到26个百分点。研究人员建议,需要针对阅读器模型的提示槽进行干预来解决这种偏见,因为检索侧的修复未能缓解该问题。