English(EN) Look Before You Zoom: Adaptive Routing for the Resolution-Context Trade-off in Visual RAG

ViRGo框架通过自适应路由优化VLM性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-20 09:49

研究人员开发了ViRGo，一个旨在通过自适应路由查询来优化视觉语言模型（VLM）性能的新颖框架。ViRGo通过估计对象尺度和语义置信度，在全局感知、基于块的检索或基于注意力机制的检索之间进行智能选择，从而解决分辨率和上下文之间的权衡问题。这种方法旨在提高准确性和效率，尤其是在涉及小对象的任务中，通过避免不必要的缩放并在适当的时候保留全局上下文。 AI

影响该框架可以提高VLM的效率和准确性，尤其是在涉及详细视觉分析的任务中。

排序理由这是一篇详细介绍视觉语言模型新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Khoa D. Doan · 2026-06-20 09:49

三思而后行：视觉RAG中分辨率-上下文权衡的自适应路由

Vision-Language Models (VLMs) struggle as query-relevant objects become smaller. To address this, recent training-free approaches dynamically retrieve and zoom into local image regions. However, we show that indiscriminately applying retrieval ignores a critical vulnerability: th…

报道来源 [1]

三思而后行：视觉RAG中分辨率-上下文权衡的自适应路由

相关实体

相关话题