PulseAugur
实时 05:51:58
English(EN) ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

新的ELVA框架解决了多模态检索中的“粒度盲”问题

研究人员推出了一种新颖的框架ELVA,旨在解决通用多模态检索(UMR)中使用的多模态大语言模型(MLLMs)的“粒度盲”问题。粒度盲是指模型平等对待所有负样本,忽略复杂查询中细微的信息。ELVA利用基于规则的可验证奖励强化学习(RLVR)框架,根据负样本与正样本的相似度来区分它们,从而提高模型学习区分粒度信息的能力。该框架还引入了MRBench,这是一个专门用于评估多粒度查询场景的新基准。ELVA在标准检索基准上取得了最先进的成果,并在MRBench上实现了13.1%的显著改进。 AI

影响 这项研究可能带来更细致、更有效的多模态检索系统,改进AI模型理解和处理跨不同数据类型的复杂查询的方式。

排序理由 该集群描述了一篇介绍多模态检索新框架和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的ELVA框架解决了多模态检索中的“粒度盲”问题

报道来源 [1]

  1. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Jingmin Xin ·

    ELVA:探索驱动排序的通用多模态检索

    Leveraging Multimodal Large Language Models (MLLMs) via contrastive learning has become a mainstream paradigm for improving the performance of Universal Multimodal Retrieval (UMR). However, previous works have ignored the grain blindness when adapting the contrastive paradigm int…