PulseAugur
实时 01:40:51

新基准揭示MLLMs在流式空间智能方面存在困难

研究人员推出OVO-S-Bench,一个旨在评估多模态大语言模型(MLLMs)在流式环境中的空间智能的新基准。该基准包含348个视频中的1680个问题,重点关注与机器人和自动驾驶相关的连续自我中心流。初步评估显示,Gemini-3.1-Pro在分配中心映射任务方面明显落后于人类专家,并且令人惊讶的是,专门的流式MLLMs的表现不如其基础模型。 AI

影响 为流式空间MLLMs建立了一个新的、要求严苛的测试平台,突出了当前的局限性并指导未来的发展。

排序理由 该集群包含一篇介绍新基准以评估AI模型的论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Yifei Li, Pengyiang Liu, Yuhang Zang, Zhongyue Shi, Qi Fu, Hongye Hao, Jiwen Lu ·

    OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

    arXiv:2606.03890v1 Announce Type: new Abstract: Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous egocentric streams, often using evidence outside the current view. Existing benchmarks either evaluate offline over full …

  2. arXiv cs.CV TIER_1 English(EN) · Jiwen Lu ·

    OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

    Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous egocentric streams, often using evidence outside the current view. Existing benchmarks either evaluate offline over full videos or target events rather than spatial stru…