English(EN) CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception

CVSearch框架提升大语言模型高分辨率图像感知能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-22 14:07

研究人员开发了CVSearch，一个旨在改进多模态大语言模型（MLLMs）处理高分辨率图像方式的新框架。该系统无需训练，可动态调整其搜索策略，首先尝试专家辅助搜索，若首次尝试失败则采用新颖的语义感知扫描机制。CVSearch通过智能分解图像并迭代探索细节，旨在克服现有方法的效率和覆盖率权衡问题，在提高搜索效率的同时达到最先进的准确性。 AI

影响增强了多模态大语言模型处理高分辨率图像的能力，可能改进需要详细视觉理解的领域的应用。

排序理由该集群包含一篇介绍人工智能研究新框架的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Liupeng Li, Haoqian Kang, Zhenyu Lu, Jinpeng Wang, Bin Chen, Ke Chen, Yaowei Wang · 2026-05-25 04:00

CVSearch：赋能多模态大模型，通过认知式视觉搜索实现高分辨率图像感知

arXiv:2605.23655v1 Announce Type: cross Abstract: High-resolution (HR) image perception presents a key bottleneck for multimodal large language models (MLLMs). While visual search offers a promising solution, existing methods struggle with the trade-off between coverage and effic…
arXiv cs.CV TIER_1 English(EN) · Yaowei Wang · 2026-05-22 14:07

CVSearch：赋能多模态大模型，通过认知视觉搜索实现高分辨率图像感知

High-resolution (HR) image perception presents a key bottleneck for multimodal large language models (MLLMs). While visual search offers a promising solution, existing methods struggle with the trade-off between coverage and efficiency. Visual expert-assisted search is efficient …

报道来源 [2]

CVSearch：赋能多模态大模型，通过认知式视觉搜索实现高分辨率图像感知

CVSearch：赋能多模态大模型，通过认知视觉搜索实现高分辨率图像感知

相关实体

相关话题