English(EN) From Where Things Are to What They Are For: Benchmarking Spatial-Functional Intelligence in Multimodal LLMs

新基准测试挑战多模态大语言模型（MLLMs）的空间和功能推理能力

作者 PulseAugur 编辑部 · [4 个来源] · 2026-05-05 04:00

研究人员引入了新的基准测试，用于评估多模态大语言模型（MLLMs）的空间和功能推理能力。这些基准测试旨在超越基本的几何感知，评估结构化空间推理和理解物体在特定情境下的效用等更高级的认知能力。实验表明，当前的多模态大语言模型在整合空间记忆、功能推理和外部知识方面存在困难，这凸显了实现具身智能的重大瓶颈。 AI

影响新的基准测试将推动更具认知能力的多模态智能体的开发，提升它们与现实世界的交互和规划能力。

排序理由多篇arXiv论文介绍了用于评估多模态大语言模型空间和功能智能的新基准测试和模型。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。我们如何撰写摘要 →

报道来源 [4]

Apple Machine Learning Research TIER_1 English(EN) · 2026-05-06 00:00

从“事物所在”到“事物用途”：多模态大语言模型的空间-功能智能基准测试

True spatial intelligence for multimodal agents transcends low-level geometric perception, evolving from knowing where things are to understanding what they are for. While existing benchmarks, such as VSI-Bench, effectively evaluate this foundational geometric stage, they fall sh…
arXiv cs.AI TIER_1 English(EN) · Peiran Xu, Sudong Wang, Yao Zhu, Jianing Li, Gege Qi, Yunjian Zhang · 2026-05-08 04:00

SpatialBench：用于空间认知能力的多模态大语言模型基准测试

arXiv:2511.21471v4 Announce Type: replace Abstract: Spatial cognition is fundamental to real-world multimodal intelligence, allowing models to effectively interact with the physical environment. While multimodal large language models (MLLMs) have made significant strides, existin…
arXiv cs.LG TIER_1 English(EN) · Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan · 2026-05-07 04:00

在统一的多模态理解与生成中唤醒空间智能

arXiv:2605.04128v1 Announce Type: cross Abstract: We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM…
arXiv cs.CV TIER_1 English(EN) · Le Zhang, Jihan Yang, Soundarya Krishnan, Jimit Majmudar, Xiou Ge, Prasoon Puri, Prathamesh Nandkishor Saraf, Shruti Bhargava, Dhivya Piraviperumal, Yinan Ling, Cindy Pan, Hong Yu, Aishwarya Agrawal, Bo-Hsiang Tseng · 2026-05-05 04:00

从事物是什么到事物为何物：多模态大语言模型空间功能智能的基准测试

arXiv:2605.02130v1 Announce Type: new Abstract: Human-level agentic intelligence extends beyond low-level geometric perception, evolving from recognizing where things are to understanding what they are for. While existing benchmarks effectively evaluate the geometric perception c…

报道来源 [4]

从“事物所在”到“事物用途”：多模态大语言模型的空间-功能智能基准测试

SpatialBench：用于空间认知能力的多模态大语言模型基准测试

在统一的多模态理解与生成中唤醒空间智能

从事物是什么到事物为何物：多模态大语言模型空间功能智能的基准测试

相关实体

相关话题