研究人员推出了DiCoBench,这是一个新的基准测试,旨在通过高分辨率、多图像输入来评估多模态大语言模型(MLLM)的细粒度感知能力。该基准测试包含两个赛道和八个感知任务的765个样本,侧重于差异和共性视觉线索。对18个MLLM的评估显示,与人类准确性相比存在显著的性能差距,突显了捕捉微观细节方面的挑战。 AI
影响 强调了当前MLLM在高分辨率视觉任务方面的局限性,可能指导未来在感知能力方面的研究。
排序理由 该集群描述了一篇用于评估AI模型的新学术基准测试论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →