English(EN) Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

多模态大语言模型（MLLMs）难以理解自我中心的指向性，新的基准测试EgoPoint-Bench揭示了这一点

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-23 09:15

研究人员开发了EgoPoint-Bench，这是一个旨在测试多模态大语言模型（MLLMs）在自我中心视觉中理解指向手势能力的新基准。目前的MLLMs常常无法准确解读指向，而是依赖于不那么精确的线索，如邻近性。该基准测试包含超过11,000个模拟和真实世界样本，旨在提高AI代理的空间推理能力，以用于智能眼镜等任务。 AI

影响增强了对自我中心AI空间推理的评估，有望改进未来的辅助技术。

排序理由学术论文，介绍了一个用于评估多模态推理的新基准。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Jie Zhou · 2026-04-23 09:15

Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

Egocentric AI agents, such as smart glasses, rely on pointing gestures to resolve referential ambiguities in natural language commands. However, despite advancements in Multimodal Large Language Models (MLLMs), current systems often fail to precisely ground the spatial semantics …

报道来源 [1]

Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

相关实体

相关话题