English(EN) HiDe: Rethinking The Zoom-IN method in High Resolution MLLMs via Hierarchical Decoupling

HiDe框架提升MLLM在高分辨率图像上的性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员开发了一个名为HiDe的新型免训练框架，以提高多模态大语言模型（MLLM）在高分辨率图像上的性能。HiDe将背景干扰而非物体大小视为性能下降的主要原因。该框架使用Token-wise Attention Decoupling (TAD) 和 Layout-Preserving Decoupling (LPD) 来分离关键视觉信息并消除分散注意力的背景元素。这种方法在V*Bench、HRBench4K和HRBench8K等基准测试中取得了最先进的成果，显著提升了Qwen2.5-VL 7B和InternVL3 8B等模型。 AI

影响增强了MLLM在高分辨率图像分析方面的能力，可能改进医学成像和卫星图像等领域的应用。

排序理由该集群包含一篇详细介绍新框架和基准测试结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xianjie Liu, Yiman Hu, Yixiong Zou, Liang Wu, Jian Xu, Bo Zheng · 2026-06-05 04:00

HiDe：通过分层解耦重新思考高分辨率MLLM中的Zoom-IN方法

arXiv:2510.00054v3 Announce Type: replace Abstract: Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding tasks. However, their performance on high-resolution images remains suboptimal. While existing approaches often attribute this limita…

报道来源 [1]

HiDe：通过分层解耦重新思考高分辨率MLLM中的Zoom-IN方法

相关实体

相关话题