研究人员推出PCSR-Bench,一个旨在评估多模态大型语言模型(MLLM)在处理全向图像时的空间推理能力的新诊断基准。该基准包含超过84,000个跨越2,600张图像的问答对,揭示了基础感知与高级推理任务之间存在显著差距。虽然模型在物体计数等基本任务上表现尚可,但在涉及视角变化和以自我为中心的失真的更复杂推理任务上,其准确率急剧下降。使用强化学习对一个较小模型进行的进一步实验表明,通过有针对性的优化可以提高空间推理能力,尽管收益是特定于任务的且对奖励设计敏感。 AI
影响 突出了当前MLLM的一个关键瓶颈,表明需要改进空间推理能力以实现更强大的AI应用。
排序理由 该集群描述了一篇介绍AI模型评估基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →