English(EN) ChronoPhyBench: Do MLLMs Truly Understand the World or Merely Exploit Language Priors?

新基准挑战多模态大语言模型（MLLMs）的物理推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员推出了 ChronoPhyBench，这是一个旨在严格测试多模态大语言模型（MLLMs）物理推理能力的新基准。该基准通过包含时间排序和下一状态预测任务，旨在区分真正的跨模态理解和对语言先验知识的依赖。配套的数据集包含超过 10,000 个视频和 500 万个带注释的字幕。初步评估表明，当前开源的 MLLMs 在基于物理的多模态推理方面能力有限。 AI

影响该基准可以揭示当前 MLLMs 的局限性，并指导开发更强大、基于物理的 AI 系统。

排序理由该集群包含一篇介绍新 AI 模型评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Bin Zhu, Yanhao Jia, Kexin Zhao, Jie Wang, Munan Ning, Hao Li, Yuwei Niu, Tanqing Sun, Huangchong Yan, Mingjun Pan, Xinyi Wu, Qishen Yin, Yunyang Ge, Shuai Zhao, Li Yuan · 2026-06-09 04:00

ChronoPhyBench：多模态大模型是否真正理解世界，还是仅仅利用了语言先验？

arXiv:2606.07962v1 Announce Type: new Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in open-world reasoning and understanding. However, a critical ambiguity persists: it remains unclear whether these models genu…

报道来源 [1]

ChronoPhyBench：多模态大模型是否真正理解世界，还是仅仅利用了语言先验？

相关实体

相关话题