研究人员开发了GeoThinker,一个新颖的框架,通过主动集成几何信息来增强多模态大语言模型(MLLMs)的空间推理能力。与以往的被动融合方法不同,GeoThinker允许模型根据其内部推理需求选择性地检索和整合相关的几何数据。这种通过空间基础融合(Spatial-Grounded Fusion)和重要性门控(Importance Gating)实现的主动集成,在空间智能基准测试中取得了最先进的性能,包括在VSI-Bench上达到了72.6的峰值分数。 AI
影响 引入了一种在MLLMs中进行主动几何集成的新方法,有望提高复杂空间任务的性能。
排序理由 介绍MLLMs空间推理新框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →