研究人员推出UCS-Bench,这是一个旨在评估单视角视频流中以用户为中心的持续空间智能的新数据集。该数据集包含超过170小时的视频和8000多个问题,侧重于动态空间推理和相对于用户位置的长期记忆。为应对这一挑战,开发了一个名为DirectMe的框架,该框架从流式单视角观测中构建和维护结构化空间记忆,提高了物体位置的检索能力,并支持长时段查询。实验表明,DirectMe显著增强了领先的多模态大语言模型(LLM)的空间推理能力,并且优于现有的具有空间感知能力和长时段流式视频模型。 AI
影响 通过改善视频流中的记忆和位置检索,增强了单视角AI助手的空间推理能力。
排序理由 该集群描述了一篇介绍用于单视角视频流中空间智能的新颖数据集和框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →