PulseAugur
实时 04:56:30
实体 SFI-Bench

SFI-Bench

PulseAugur coverage of SFI-Bench — every cluster mentioning SFI-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_15684 ·

    新基准测试挑战多模态大语言模型(MLLMs)的空间和功能推理能力

    研究人员引入了新的基准测试,用于评估多模态大语言模型(MLLMs)的空间和功能推理能力。这些基准测试旨在超越基本的几何感知,评估结构化空间推理和理解物体在特定情境下的效用等更高级的认知能力。实验表明,当前的多模态大语言模型在整合空间记忆、功能推理和外部知识方面存在困难,这凸显了实现具身智能的重大瓶颈。