研究人员开发了LEVANTE-bench,这是一个旨在将视觉语言模型(VLM)的认知能力与儿童进行比较的新基准。该基准利用了LEVANTE项目的任务和数据,在三个国家对1547名5-12岁的儿童进行了VLM评估。研究结果表明,能力更强的VLM在任务和项目上的表现与儿童更接近,但它们的错误模式并不总是与人类儿童的错误模式一致,较小的模型有时更能反映年幼儿童的错误。值得注意的是,即使是表现最好的VLM在矩阵推理和心理旋转等复杂推理任务上也遇到了困难,这表明当前的VLM架构仅部分反映了人类的认知发展。 AI
影响 引入了一种新颖的方法来评估VLM与人类发展的认知一致性,可能指导未来的模型改进。
排序理由 该集群包含一篇学术论文,详细介绍了用于评估AI模型的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →