研究人员开发了一个新的基准来评估多模态大语言模型(MLLMs)识别其答案的正确视觉证据的能力,特别是在自动驾驶场景中。该基准使用来自NuScenes的同步多视角驾驶数据,向模型提出问题,并要求它们在回答前指出支持性的摄像头视图。通过明确区分证据识别和响应准确性,这种方法旨在暴露传统仅回答评估可能遗漏的定位失败。 AI
影响 该基准将通过确保模型将其决策建立在正确的视觉数据上,帮助开发人员为自动驾驶创建更可靠的AI系统。
排序理由 该集群包含一篇介绍AI模型评估新基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →