PulseAugur
实时 10:11:42
实体 ChronoPhyBench

ChronoPhyBench

PulseAugur coverage of ChronoPhyBench — every cluster mentioning ChronoPhyBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_80185 ·

    新基准挑战多模态大语言模型(MLLMs)的物理推理能力

    研究人员推出了 ChronoPhyBench,这是一个旨在严格测试多模态大语言模型(MLLMs)物理推理能力的新基准。该基准通过包含时间排序和下一状态预测任务,旨在区分真正的跨模态理解和对语言先验知识的依赖。配套的数据集包含超过 10,000 个视频和 500 万个带注释的字幕。初步评估表明,当前开源的 MLLMs 在基于物理的多模态推理方面能力有限。