研究人员开发了LightSTAR,一个用于高效视觉文档检索的新框架。该系统解决了当前方法的高计算成本问题,这些方法通常依赖于密集的 MLLMs(多模态大语言模型)。LightSTAR 采用了一个无 LLM 的视觉选择阶段,通过基于内容的查询编码和无 LLM 的视觉嵌入来快速缩小相关页面的范围。随后的视觉自适应语义细化阶段则对这些选定的候选对象进行细粒度匹配,结合文本和布局线索以提高准确性。实验表明,LightSTAR 在保持最先进的检索性能的同时,显著降低了延迟。 AI
影响 为基于 LLM 的视觉文档检索方法提供了一种更高效的替代方案,有望加快研究和信息访问的速度。
排序理由 这是一篇详细介绍新的视觉文档检索框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX Code Finder for Papers
- Connected Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- LightSTAR
- Litmaps
- LLM-free visual embeddings
- LLM-free Visual Selection
- Multi-modal Large Language Models
- ScienceCast
- scite Smart Citations
- Vision-adaptive Semantic Refinement
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →