PulseAugur
实时 23:45:39
English(EN) Argus-Retriever: Vision-LLM Late-Interaction Retrieval with Region-Aware Query-Conditioned MoE for Visual Document Retrieval

Argus-Retriever 通过查询条件化模型推进视觉文档检索

研究人员开发了 Argus,一个专为视觉文档设计的新型检索系统。与生成静态文档嵌入的先前方法不同,Argus 使用区域感知的专家混合(MoE)模块创建查询条件化表示。这种方法允许系统根据特定查询调整文档表示,从而提高视觉文档检索任务的性能。Argus-9B 模型在 ViDoRe 排行榜上取得了最先进的成果,性能优于现有的开放后期交互模型。 AI

影响 推进视觉文档检索,可能改进 LLM 代理访问和处理复杂视觉文档信息的方式。

排序理由 这是一篇详细介绍新模型和基准测试结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Adam Jatowt ·

    Argus-Retriever:用于视觉文档检索的区域感知查询条件化MoE的视觉-LLM晚期交互检索

    Late-interaction vision-language retrievers represent each document page as many visual token embeddings and score queries with MaxSim. In systems such as ColPali, ColQwen, ColNomic, and Nemotron ColEmbed, the document embeddings are produced without seeing the query, so the same…