English(EN) ValueGround: Evaluating Culture-Conditioned Visual Value Grounding in MLLMs

新基准测试多模态大语言模型在面向文化的视觉对齐能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了一个名为ValueGround的新基准，用于评估多模态大语言模型（MLLMs）在呈现视觉信息时理解和应用文化价值观的程度。该基准源自世界价值观调查问题，使用图像对来代表不同的价值倾向，要求模型在没有文本提示的情况下选择与特定国家价值观相符的图像。实验显示，当视觉选项取代文本时，模型性能显著下降，平均准确率从72.8%降至62.6%，凸显了跨模态文化理解的挑战。 AI

影响凸显了多模态大语言模型在跨模态文化理解方面的挑战，可能指导未来模型开发和评估。

排序理由该集群包含一篇介绍用于评估多模态大语言模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Zhipin Wang, Christoph Leiter, Christian Frey, Mohamed Hesham Ibrahim Abdalla, Josif Grabocka, Steffen Eger · 2026-06-01 04:00

ValueGround：评估多模态大语言模型中受文化条件影响的视觉价值基础

arXiv:2604.06484v3 Announce Type: replace Abstract: Cultural values are expressed not only through language but also through visual scenes and everyday social practices. Yet existing evaluations of cultural values in language models are almost entirely text-only, leaving it uncle…

报道来源 [1]

ValueGround：评估多模态大语言模型中受文化条件影响的视觉价值基础

相关实体

相关话题