PulseAugur
实时 23:48:38
English(EN) Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images

新基准揭示MLLM在空间推理方面存在困难

研究人员推出PCSR-Bench,一个旨在评估多模态大型语言模型(MLLM)在处理全向图像时的空间推理能力的新诊断基准。该基准包含超过84,000个跨越2,600张图像的问答对,揭示了基础感知与高级推理任务之间存在显著差距。虽然模型在物体计数等基本任务上表现尚可,但在涉及视角变化和以自我为中心的失真的更复杂推理任务上,其准确率急剧下降。使用强化学习对一个较小模型进行的进一步实验表明,通过有针对性的优化可以提高空间推理能力,尽管收益是特定于任务的且对奖励设计敏感。 AI

影响 突出了当前MLLM的一个关键瓶颈,表明需要改进空间推理能力以实现更强大的AI应用。

排序理由 该集群描述了一篇介绍AI模型评估基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准揭示MLLM在空间推理方面存在困难

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Xu Zheng ·

    Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images

    Multimodal Large Language Models (MLLMs) show strong visual perception, yet remain limited in reasoning about space under changing viewpoints. We study this challenge as Perspective-Conditioned Spatial Reasoning (PCSR) in 360-degree omnidirectional images, where broad scene cover…