研究人员推出OVO-S-Bench,一个旨在评估多模态大语言模型(MLLMs)在流式环境中的空间智能的新基准。该基准包含348个视频中的1680个问题,重点关注与机器人和自动驾驶相关的连续自我中心流。初步评估显示,Gemini-3.1-Pro在分配中心映射任务方面明显落后于人类专家,并且令人惊讶的是,专门的流式MLLMs的表现不如其基础模型。 AI
影响 为流式空间MLLMs建立了一个新的、要求严苛的测试平台,突出了当前的局限性并指导未来的发展。
排序理由 该集群包含一篇介绍新基准以评估AI模型的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →