研究人员推出了一种新颖的框架ELVA,旨在解决通用多模态检索(UMR)中使用的多模态大语言模型(MLLMs)的“粒度盲”问题。粒度盲是指模型平等对待所有负样本,忽略复杂查询中细微的信息。ELVA利用基于规则的可验证奖励强化学习(RLVR)框架,根据负样本与正样本的相似度来区分它们,从而提高模型学习区分粒度信息的能力。该框架还引入了MRBench,这是一个专门用于评估多粒度查询场景的新基准。ELVA在标准检索基准上取得了最先进的成果,并在MRBench上实现了13.1%的显著改进。 AI
影响 这项研究可能带来更细致、更有效的多模态检索系统,改进AI模型理解和处理跨不同数据类型的复杂查询的方式。
排序理由 该集群描述了一篇介绍多模态检索新框架和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →