研究人员推出EgoProx,一个旨在评估多模态大语言模型(MLLMs)从自我中心视角理解和推理三维邻近性能力的新基准。该基准将任务组织成认知层次结构,包括意图、探索、利用和行动链推理,并利用基于代理的数据引擎生成多样化的问答对。尽管当前的MLLMs显示出一定的空间知识,但它们在视觉问答相关的空间推理方面仍难以有效应用。 AI
影响 该基准将帮助研究人员识别和改进MLLMs在具身三维空间推理方面的能力,这对于实际应用至关重要。
排序理由 该集群包含一篇介绍新AI模型评估基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →