研究人员推出了新颖视觉参考数据集(NVRD),包含 90 个视觉概念的 19,000 多张图像,旨在测试视觉语言模型(VLMs)如何学习新概念,特别是当新概念与其先有知识冲突时。对开源和闭源模型以及人类判断的评估显示,与人类不同,VLMs 在情境中难以适应新概念,并且倾向于将学到的标签过度泛化到错误的刺激上。NVRD 旨在成为研究人类和机器视觉概念获取的基准。 AI
影响 为评估 VLM 概念学习和泛化能力建立了新基准,突出了与人类能力相比的当前局限性。
排序理由 该集群包含一篇学术论文,详细介绍了用于评估视觉语言模型的新数据集和基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →