研究人员推出了Enginuity,这是一个新的数据集和基准测试,旨在评估视觉-语言模型(VLMs)在复杂工程图纸上的表现。该数据集源自美国军事手册,包含提取零件表和回答关于图纸的视觉问题的任务。对GPT-5.2 Chat和Claude Opus 4.7等领先VLMs的初步评估显示,它们在准确描述零件和在该专业领域内进行事实推理的能力方面存在显著差距。 AI
影响 该基准测试将有助于推动VLMs在专业技术领域的发展,可能提高AI在工程和维护方面的实用性。
排序理由 该集群包含一篇介绍用于AI评估的数据集和基准测试的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →