实体 Chengjun Yu

Chengjun Yu

PulseAugur coverage of Chengjun Yu — every cluster mentioning Chengjun Yu across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_115671 · Jun 29 · 04:00

新基准 EXPLORE-Bench 测试以自我为中心的 AI 的长时推理能力

研究人员推出了 EXPLORE-Bench，这是一个新的基准，旨在评估多模态大语言模型 (MLLM) 在以自我为中心的场景中的长时推理能力。该基准源自真实的第一人称视频，将扩展的动作序列与详细的最终场景注解配对，从而能够对物体属性和关系进行细粒度评估。使用 EXPLORE-Bench 进行的实验揭示了当前 MLLM 在一系列动作后预测场景结果的能力与人类能力之间存在显著的性能差距，突显了长时以自我为中心的推理是一个关键挑战。