研究人员推出了 CHRONOSIGHT,这是一个旨在评估视觉语言模型 (VLM) 时间推理能力的新基准。该基准评估了五个关键领域:时间顺序排序、阶段定位、时间流逝估算、反向序列检测和时间异常识别。人类在 CHRONOSIGHT 上的平均表现为 0.89,而表现最佳的开源 VLM Qwen2.5-VL-7B 仅达到 0.40,这凸显了一个被称为“时间顺序盲区”的显著差距。使用 LoRA 在小型数据集上进行微调可以提高特定任务的表现,这表明指令遵循可能是瓶颈。 AI
影响 突出了 VLM 时间推理方面的显著差距,为未来模型开发和微调指明了方向。
排序理由 该集群描述了一篇介绍用于评估 AI 模型基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →