English(EN) LightSTAR: Efficient Visual Document Retrieval via Lightweight Selection with Vision-Adaptive Refinement

LightSTAR框架提供高效的视觉文档检索

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-22 16:16

研究人员开发了LightSTAR，一个用于高效视觉文档检索的新框架。该系统解决了当前方法的高计算成本问题，这些方法通常依赖于密集的 MLLMs（多模态大语言模型）。LightSTAR 采用了一个无 LLM 的视觉选择阶段，通过基于内容的查询编码和无 LLM 的视觉嵌入来快速缩小相关页面的范围。随后的视觉自适应语义细化阶段则对这些选定的候选对象进行细粒度匹配，结合文本和布局线索以提高准确性。实验表明，LightSTAR 在保持最先进的检索性能的同时，显著降低了延迟。 AI

影响为基于 LLM 的视觉文档检索方法提供了一种更高效的替代方案，有望加快研究和信息访问的速度。

排序理由这是一篇详细介绍新的视觉文档检索框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xiaokang Yang · 2026-06-22 16:16

LightSTAR: Efficient Visual Document Retrieval via Lightweight Selection with Vision-Adaptive Refinement

Visual document retrieval requires rapidly locating relevant pages from large multi-modal corpora in response to user queries. While recent methods powered by Multi-modal Large Language Models (MLLMs) show competitive accuracy, they suffer from prohibitive computational costs by …

报道来源 [1]

LightSTAR: Efficient Visual Document Retrieval via Lightweight Selection with Vision-Adaptive Refinement

相关实体

相关话题