研究人员为多模态大语言模型(MLLMs)引入了一个名为 SP-CoR 的新框架,以实现来自多个机器人视角的协作空间推理。该框架旨在通过整合机器人团队同步的以自我为中心的视频,来回答有关空间关系、时间事件和可见性的复杂问题。为此,他们还开发了 CoopSR,这是该任务的第一个基准测试,以及 EgoTeam,一个包含超过 114,000 个问答对的数据集,这些数据来自模拟和真实机器人团队。 AI
影响 使机器人能够从多个角度协作理解和推理其环境,从而推进具身人工智能的能力。
排序理由 该集群描述了一篇介绍新颖框架和数据集的多模态人工智能研究论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →