研究人员开发了一个名为HiDe的新型免训练框架,以提高多模态大语言模型(MLLM)在高分辨率图像上的性能。HiDe将背景干扰而非物体大小视为性能下降的主要原因。该框架使用Token-wise Attention Decoupling (TAD) 和 Layout-Preserving Decoupling (LPD) 来分离关键视觉信息并消除分散注意力的背景元素。这种方法在V*Bench、HRBench4K和HRBench8K等基准测试中取得了最先进的成果,显著提升了Qwen2.5-VL 7B和InternVL3 8B等模型。 AI
影响 增强了MLLM在高分辨率图像分析方面的能力,可能改进医学成像和卫星图像等领域的应用。
排序理由 该集群包含一篇详细介绍新框架和基准测试结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- HiDe
- HRBench4K
- HRBench8K
- InternVL3 8B
- Multimodal Large Language Models
- Qwen2.5-VL 7B
- V*Bench
- Xianjie Liu
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →