实体 ChronoPhyBench

ChronoPhyBench

PulseAugur coverage of ChronoPhyBench — every cluster mentioning ChronoPhyBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_80185 · Jun 9 · 04:00

新基准挑战多模态大语言模型（MLLMs）的物理推理能力

研究人员推出了 ChronoPhyBench，这是一个旨在严格测试多模态大语言模型（MLLMs）物理推理能力的新基准。该基准通过包含时间排序和下一状态预测任务，旨在区分真正的跨模态理解和对语言先验知识的依赖。配套的数据集包含超过 10,000 个视频和 500 万个带注释的字幕。初步评估表明，当前开源的 MLLMs 在基于物理的多模态推理方面能力有限。