PulseAugur
实时 02:14:11

新的EgoProx基准测试MLLMs的三维空间推理能力

研究人员推出EgoProx,一个旨在评估多模态大语言模型(MLLMs)从自我中心视角理解和推理三维邻近性能力的新基准。该基准将任务组织成认知层次结构,包括意图、探索、利用和行动链推理,并利用基于代理的数据引擎生成多样化的问答对。尽管当前的MLLMs显示出一定的空间知识,但它们在视觉问答相关的空间推理方面仍难以有效应用。 AI

影响 该基准将帮助研究人员识别和改进MLLMs在具身三维空间推理方面的能力,这对于实际应用至关重要。

排序理由 该集群包含一篇介绍新AI模型评估基准的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Jinzhao Li, Yinuo Chen, Dongxu Piao, Panwang Pan, Yifan Yu, Dong Wang, Honglei Yan, Liang Yue, Shaofei Wang, Yixin Chen, Siyuan Huang, Miao Liu ·

    EgoProx:在认知层级上评估MLLMs的自我中心3D邻近推理能力

    arXiv:2605.24456v1 Announce Type: new Abstract: Humans constantly reason about 3D proximity, the relations between their body and surrounding objects, to guide perception and action in daily life. Whether multimodal large language models (MLLMs) can perform such embodied 3D reaso…