研究人员推出了DRAGON,这是一个旨在评估视觉语言模型(VLM)在多大程度上能够将其推理与图表中的特定视觉证据联系起来的新基准。该基准解决了模型可能通过虚假关联而非真正理解视觉信息而获得正确答案的局限性。DRAGON包含来自六个现有图表问答数据集的超过11,000个带注释的问题实例,其中测试集包含经过人类验证的推理证据注释。评估了八个VLM在各种图表类型中定位这些证据的能力,旨在提高基于图表的推理的可解释性和可靠性。 AI
影响 改进了对图表视觉推理的评估,推动了更具可解释性和可靠性的AI系统。
排序理由 这是一篇介绍用于评估AI模型的新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →