研究人员推出了两个新的基准测试,VGenST-Bench 和 CaST-Bench,旨在更严格地评估多模态大语言模型 (MLLM) 和视觉语言模型 (VLM) 的时空推理能力。VGenST-Bench 利用主动视频合成,在各种空间和时间维度上创建受控场景,从而能够对 MLLM 的理解进行细粒度诊断。CaST-Bench 侧重于因果链式时空推理,要求模型识别和定位视频中因果关系的证据,突显了当前 VLM 在该领域的局限性。 AI
影响 这些基准测试旨在改进对 AI 模型理解真实世界场景的评估,推动更强大的时空和因果推理能力。
排序理由 该集群描述了两个用于评估 AI 模型的新学术基准的发布。
在 arXiv cs.MA (Multiagent) 阅读 →
AI 生成摘要 · Google Gemini · 来自 6 个来源。 我们如何撰写摘要 →