English(EN) ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

新的ELVA框架解决了多模态检索中的“粒度盲”问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 14:23

研究人员推出了一种新颖的框架ELVA，旨在解决通用多模态检索（UMR）中使用的多模态大语言模型（MLLMs）的“粒度盲”问题。粒度盲是指模型平等对待所有负样本，忽略复杂查询中细微的信息。ELVA利用基于规则的可验证奖励强化学习（RLVR）框架，根据负样本与正样本的相似度来区分它们，从而提高模型学习区分粒度信息的能力。该框架还引入了MRBench，这是一个专门用于评估多粒度查询场景的新基准。ELVA在标准检索基准上取得了最先进的成果，并在MRBench上实现了13.1%的显著改进。 AI

影响这项研究可能带来更细致、更有效的多模态检索系统，改进AI模型理解和处理跨不同数据类型的复杂查询的方式。

排序理由该集群描述了一篇介绍多模态检索新框架和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Jingmin Xin · 2026-06-18 14:23

ELVA：探索驱动排序的通用多模态检索

Leveraging Multimodal Large Language Models (MLLMs) via contrastive learning has become a mainstream paradigm for improving the performance of Universal Multimodal Retrieval (UMR). However, previous works have ignored the grain blindness when adapting the contrastive paradigm int…

报道来源 [1]

ELVA：探索驱动排序的通用多模态检索

相关实体

相关话题