研究人员推出了一项名为COHERENCE的新基准测试,旨在评估多模态大型语言模型(MLLM)的细粒度图像-文本对齐能力。现有的基准测试常常忽略真实文档中交错图像-文本上下文的复杂性。COHERENCE通过评估MLLM在混合媒体环境中连接视觉和文本信息的能力来弥补这一不足,涵盖四个不同领域,包含超过6000个问题。 AI
影响 为多模态模型提供了一个新的评估框架,突出了当前在理解交错图像-文本数据方面的局限性。
排序理由 这是一篇介绍AI模型评估新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →