研究人员推出了 ChronoPhyBench,这是一个旨在严格测试多模态大语言模型(MLLMs)物理推理能力的新基准。该基准通过包含时间排序和下一状态预测任务,旨在区分真正的跨模态理解和对语言先验知识的依赖。配套的数据集包含超过 10,000 个视频和 500 万个带注释的字幕。初步评估表明,当前开源的 MLLMs 在基于物理的多模态推理方面能力有限。 AI
影响 该基准可以揭示当前 MLLMs 的局限性,并指导开发更强大、基于物理的 AI 系统。
排序理由 该集群包含一篇介绍新 AI 模型评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →