一篇新论文评估了包括 GPT-4o 和 Gemini 1.5 Pro 在内的多模态基础模型在标准计算机视觉任务上的表现。研究人员开发了一种提示链方法,将视觉任务转换为文本格式,以便 API 可访问的模型进行处理。研究发现,虽然这些模型是可靠的通才,但它们尚未能媲美专业的计算机视觉模型,在语义任务上的表现优于几何任务。GPT-4o 在非推理模型中表现最强,但具有原生图像生成能力模型出现了幻觉对象等故障模式。 AI
影响 评估了当前多模态模型在视觉任务上的能力,并强调了与专业模型相比的局限性。
排序理由 这是一篇评估现有模型在计算机视觉任务上的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →