English(EN) Can Machines Really See Objects in Images? A Study Based on Syntactic Distance and Visual Self-Referential Instances

新研究质疑 AI 视觉模型是否真正“看到”物体

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

一篇新的研究论文探讨了当前视觉模型在真正理解物体方面的局限性，提出它们的识别能力受限于它们所学习的描述系统。该研究引入了“句法距离”来衡量类别可分离性，发现当局部统计线索不可靠且需要全局语义时，模型会遇到困难。使用 ResNets 和 Vision Transformers 进行的实验表明，在超过临界图像尺度后，准确率会下降到随机猜测的水平，这表明现有架构在全局概念任务上存在基本能力边界。 AI

影响表明当前的 AI 视觉架构在理解全局概念方面可能存在根本性限制，可能需要超越现有语言模型的新方法。

排序理由关于 AI 模型能力的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

Vision Transformers

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Xingyu Peng, Junran Wu, Yue Hou, Zhongliang Qiao, Jiaheng Liu, Shangzhe Li, Jichang Zhao, Wenjun Wu, Xianglong Liu, Yongxin Tong, Li Dong, Ke Xu · 2026-06-30 04:00

机器真的能看懂图像中的物体吗？一项基于句法距离和视觉自指实例的研究

arXiv:2606.29416v1 Announce Type: cross Abstract: Can a vision model truly see an object, or does it only fit surface-level visual cues? Following Wittgenstein's view that the limits of language are the limits of the world, we view a model's recognition ability as bounded by the …

报道来源 [1]

机器真的能看懂图像中的物体吗？一项基于句法距离和视觉自指实例的研究

相关实体

相关话题