研究人员推出了SPUR基准,旨在评估多模态大语言模型(MLLMs)解读科学实验图像的能力。SPUR包含超过4000个源自专家策展图像的问答对,侧重于图像面板内的细粒度感知、多个面板之间的关系理解以及专家级推理。对20个MLLM和四种思维链方法的评估表明,当前模型尚不具备“科学AI”应用所需的复杂解读能力。 AI
影响 凸显了AI解读复杂科学图像能力方面的重大差距,可能指导未来“科学AI”领域的研究。
排序理由 这是一篇介绍用于评估AI模型新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →