English(EN) LEVANTE-bench: Multi-Scale Comparison of VLMs to Children Using Cognitive Tasks (or, "Is Your VLM Smarter Than a 5th Grader?")

新基准将VLM认知能力与儿童发育进行比较

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员开发了LEVANTE-bench，这是一个旨在将视觉语言模型（VLM）的认知能力与儿童进行比较的新基准。该基准利用了LEVANTE项目的任务和数据，在三个国家对1547名5-12岁的儿童进行了VLM评估。研究结果表明，能力更强的VLM在任务和项目上的表现与儿童更接近，但它们的错误模式并不总是与人类儿童的错误模式一致，较小的模型有时更能反映年幼儿童的错误。值得注意的是，即使是表现最好的VLM在矩阵推理和心理旋转等复杂推理任务上也遇到了困难，这表明当前的VLM架构仅部分反映了人类的认知发展。 AI

影响引入了一种新颖的方法来评估VLM与人类发展的认知一致性，可能指导未来的模型改进。

排序理由该集群包含一篇学术论文，详细介绍了用于评估AI模型的新基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Alvin Wei Ming Tan, David Cardinal, Tania Lorido-Botran, Laura Bravo-Sanchez, Sunny Yu, Michael C. Frank · 2026-06-05 04:00

LEVANTE-bench：多尺度比较VLMs与儿童认知任务（或“你的VLM比五年级学生聪明吗？”）

arXiv:2606.05497v1 Announce Type: new Abstract: Given the inherently multimodal nature of human experience, vision-language models (VLMs) hold substantial promise for modeling human cognition as it grows and develops with experience. Realizing their potential requires tools for c…

报道来源 [1]

LEVANTE-bench：多尺度比较VLMs与儿童认知任务（或“你的VLM比五年级学生聪明吗？”）

相关话题