研究人员推出了QCalEval,这是一个新的基准测试,旨在评估视觉-语言模型(VLMs)在多大程度上能够理解量子计算校准图。该基准测试包含243个样本,涵盖了各种量子计算实验类型,并使用零样本和上下文学习方法进行评估。初步结果表明,虽然前沿的闭源模型表现良好,但许多开放权重模型在多图像上下文学习方面存在困难,并且仅通过监督微调并不能完全弥合这一差距。 AI
影响 为科学领域VLMs的评估建立了一个新标准,可能指导未来针对专业数据解释的模型开发。
排序理由 这是一篇介绍用于评估VLMs在特定科学任务上表现的新基准测试的研究论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →