研究人员推出BEAR,一个旨在评估和诊断具身多模态大语言模型(MLLM)技能级能力的新基准。该基准将具身任务分解为14个不同的原子技能,比以往的任务级评估提供了更细粒度的模型故障洞察。在BEAR上的评估显示,感知限制和不稳定的时空建模是当前MLLM的重要瓶颈。为解决这些问题,团队开发了BEAR-Agent,一个通过视觉和空间推理工具增强MLLM的对话代理,在基准测试和机器人实验中均展示了显著的性能提升。 AI
影响 识别具身AI的关键弱点,指导未来研究朝着改进机器人代理的感知和时空推理能力方向发展。
排序理由 该集群包含一篇学术论文,介绍了一个新的多模态语言模型基准和评估框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →