研究人员推出了 M$^3$-VQA,这是一个新的基准,旨在评估多模态大语言模型 (MLLMs) 在涉及多个实体和多跳推理的复杂推理任务上的表现。该基准挑战模型理解跨越视觉和文本来源的细粒度细节,需要顺序和并行推理。对 16 个领先的 MLLMs 的初步评估显示,它们在知识获取和推理能力方面存在显著局限性,尽管在提供精确证据时性能有了实质性提高。 AI
影响 该基准将通过突出当前局限性来推动大语言模型多模态推理的进步。
排序理由 引入了一个新的基准来评估多模态大语言模型。
AI 生成摘要 · Google Gemini · 来自 6 个来源。 我们如何撰写摘要 →