PulseAugur
实时 10:49:35
English(EN) HiDe: Rethinking The Zoom-IN method in High Resolution MLLMs via Hierarchical Decoupling

HiDe框架提升MLLM在高分辨率图像上的性能

研究人员开发了一个名为HiDe的新型免训练框架,以提高多模态大语言模型(MLLM)在高分辨率图像上的性能。HiDe将背景干扰而非物体大小视为性能下降的主要原因。该框架使用Token-wise Attention Decoupling (TAD) 和 Layout-Preserving Decoupling (LPD) 来分离关键视觉信息并消除分散注意力的背景元素。这种方法在V*Bench、HRBench4K和HRBench8K等基准测试中取得了最先进的成果,显著提升了Qwen2.5-VL 7B和InternVL3 8B等模型。 AI

影响 增强了MLLM在高分辨率图像分析方面的能力,可能改进医学成像和卫星图像等领域的应用。

排序理由 该集群包含一篇详细介绍新框架和基准测试结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Xianjie Liu, Yiman Hu, Yixiong Zou, Liang Wu, Jian Xu, Bo Zheng ·

    HiDe:通过分层解耦重新思考高分辨率MLLM中的Zoom-IN方法

    arXiv:2510.00054v3 Announce Type: replace Abstract: Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding tasks. However, their performance on high-resolution images remains suboptimal. While existing approaches often attribute this limita…