English(EN) CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding

新的CGC框架提升多模态LLM的细粒度图像理解能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-24 12:26

研究人员推出了一种名为组合式地面对比（CGC）的新框架，旨在增强多模态大语言模型（MLLMs）的细粒度多图像理解能力。该方法通过利用现有的单图像标注构建训练实例，解决了空间幻觉和物体恒常性等挑战。CGC利用跨图像和图像内对比学习，以及基于规则的空间奖励系统，来改进归因和对齐。该框架在MIG-Bench和VLM2-Bench等基准测试中展现了最先进的性能，并显示出对其他多模态任务的积极迁移学习效果。 AI

影响提高了MLLM在复杂视觉推理任务上的性能，可能支持更复杂图像分析应用。

排序理由该集群描述了一篇详细介绍用于改进多模态AI模型的新颖框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Lihao Zheng, Zhenwei Shao, Yu Zhou, Yan Yang, Xintian Shen, Jiawei Chen, Hao Ma, Tao Wei · 2026-04-27 04:00

CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding

arXiv:2604.22498v1 Announce Type: new Abstract: Although Multimodal Large Language Models (MLLMs) have advanced rapidly, they still face notable challenges in fine-grained multi-image understanding, often exhibiting spatial hallucination, attention leakage, and failures in object…
arXiv cs.CV TIER_1 English(EN) · Tao Wei · 2026-04-24 12:26

CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding

Although Multimodal Large Language Models (MLLMs) have advanced rapidly, they still face notable challenges in fine-grained multi-image understanding, often exhibiting spatial hallucination, attention leakage, and failures in object constancy. In addition, existing approaches typ…

报道来源 [2]

CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding

CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding

相关实体

相关话题