English(EN) Vision Language Models Cannot Reason About Physical Transformation

视觉语言模型未能掌握物理变换

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

一篇新发表在arXiv上的研究论文强调了当前视觉语言模型（VLMs）在理解物理变换方面存在的显著局限性。该研究引入了ConservationBench，一个旨在测试VLMs是否能掌握守恒原理的数据集，即物理量在变换过程中保持不变。在112个VLMs和超过23,000个问题中，模型的表现接近随机猜测水平，表明它们在维持物理属性一致性表征方面存在根本性缺陷。 AI

影响当前的VLMs在基本物理推理方面存在困难，这表明需要新的架构或训练方法来实现强大的具身AI能力。

排序理由该集群包含一篇详细介绍新基准和现有模型评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng · 2026-06-02 04:00

Vision Language Models Cannot Reason About Physical Transformation

arXiv:2603.07109v2 Announce Type: replace Abstract: Understanding physical transformations is fundamental for reasoning in dynamic environments. While Vision Language Models (VLMs) show promise in embodied applications, whether they genuinely understand physical transformations r…

报道来源 [1]

Vision Language Models Cannot Reason About Physical Transformation

相关实体

相关话题