研究人员推出了一种名为ActiveScope的新型无训练框架,旨在提高多模态大语言模型(MLLM)的感知能力。该框架通过解决上下文主导和语义偏差等问题来应对高分辨率图像理解中的局限性,这些问题常常误导MLLM并导致多个物体定位不准确。ActiveScope采用两个关键模块:语义锚点定位(SAL)独立精确定位目标并减轻语义偏差,以及干扰抑制细化(ISR)抑制干扰元素并克服上下文主导。实验表明,ActiveScope的性能显著优于现有方法,在V*Bench基准测试中达到了96.34%的准确率。 AI
影响 该框架有望在需要细粒度视觉理解的任务中,尤其是在复杂、高分辨率图像场景下,实现更准确、更可靠的MLLM性能。
排序理由 该集群包含一篇详细介绍用于改进MLLM感知的新框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →