研究人员引入了一种新度量 VL-LCM,可在无需真实标注的情况下评估多模态大语言模型(MLLMs)的逻辑一致性。该度量使用 MMMU 和 NaturalBench 等现有基准,评估 MLLMs 在视觉-语言任务上的因果推理能力。对 11 个开源 MLLMs 的实验表明,尽管准确性有所提高,但逻辑一致性仍然是一个重大挑战,这表明 VL-LCM 可用于辅助模型选择和新任务验证。 AI
影响 引入了一种新颖的多模态大语言模型评估方法,可以改进模型选择和验证,尤其是在缺乏真实数据的情况下。
排序理由 学术论文,介绍了一种新的多模态大语言模型评估度量。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →