PulseAugur
实时 12:50:41
English(EN) Would you still call this Dax? Novel Visual References in VLMs and Humans

新数据集探究 VLM 概念学习与人类泛化能力

研究人员推出了新颖视觉参考数据集(NVRD),包含 90 个视觉概念的 19,000 多张图像,旨在测试视觉语言模型(VLMs)如何学习新概念,特别是当新概念与其先有知识冲突时。对开源和闭源模型以及人类判断的评估显示,与人类不同,VLMs 在情境中难以适应新概念,并且倾向于将学到的标签过度泛化到错误的刺激上。NVRD 旨在成为研究人类和机器视觉概念获取的基准。 AI

影响 为评估 VLM 概念学习和泛化能力建立了新基准,突出了与人类能力相比的当前局限性。

排序理由 该集群包含一篇学术论文,详细介绍了用于评估视觉语言模型的新数据集和基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Ada Defne T\"ur, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer ·

    你还会称之为Dax吗?VLMs和人类中的新视觉参考

    arXiv:2606.05409v1 Announce Type: cross Abstract: Vision-language models (VLMs), like human learners, are frequently exposed to new visual concepts, but how they map novel visual references to language after exposure remains largely underexplored, particularly when those referenc…