English(EN) Towards Annotation-Free Validation of MLLMs: A Vision-Language Logical Consistency Metric

新度量可在无标注情况下评估多模态大语言模型的逻辑一致性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员引入了一种新度量 VL-LCM，可在无需真实标注的情况下评估多模态大语言模型（MLLMs）的逻辑一致性。该度量使用 MMMU 和 NaturalBench 等现有基准，评估 MLLMs 在视觉-语言任务上的因果推理能力。对 11 个开源 MLLMs 的实验表明，尽管准确性有所提高，但逻辑一致性仍然是一个重大挑战，这表明 VL-LCM 可用于辅助模型选择和新任务验证。 AI

影响引入了一种新颖的多模态大语言模型评估方法，可以改进模型选择和验证，尤其是在缺乏真实数据的情况下。

排序理由学术论文，介绍了一种新的多模态大语言模型评估度量。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ying Gu, Mei Chee Leong, Hui Li Tan, Shangbo Mao, Liyuan Li, Nancy Chen · 2026-05-08 04:00

迈向量标注的MLLM验证：一个视觉语言逻辑一致性指标

arXiv:2605.06201v1 Announce Type: new Abstract: Dominant accuracy evaluation might reward unwarranted guessing of Large Language Models, and it might not be applicable to novel tasks for model validation without ground-truth (gt) annotation. Based on basic logic principle, we pro…

报道来源 [1]

迈向量标注的MLLM验证：一个视觉语言逻辑一致性指标

相关实体

相关话题