PulseAugur
实时 13:55:57
English(EN) Keep It in Mind: User Centric Continual Spatial Intelligence Reasoning in Egocentric Video Streams

新数据集和框架推进单视角视频中的空间智能

研究人员推出UCS-Bench,这是一个旨在评估单视角视频流中以用户为中心的持续空间智能的新数据集。该数据集包含超过170小时的视频和8000多个问题,侧重于动态空间推理和相对于用户位置的长期记忆。为应对这一挑战,开发了一个名为DirectMe的框架,该框架从流式单视角观测中构建和维护结构化空间记忆,提高了物体位置的检索能力,并支持长时段查询。实验表明,DirectMe显著增强了领先的多模态大语言模型(LLM)的空间推理能力,并且优于现有的具有空间感知能力和长时段流式视频模型。 AI

影响 通过改善视频流中的记忆和位置检索,增强了单视角AI助手的空间推理能力。

排序理由 该集群描述了一篇介绍用于单视角视频流中空间智能的新颖数据集和框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Yun Wang, Junbin Xiao, Han Lyu, Yifan Wang, Jing Zuo, Zhanjie Zhang, Hong Huang, Dapeng Wu, Angela Yao ·

    Keep It in Mind: User Centric Continual Spatial Intelligence Reasoning in Egocentric Video Streams

    arXiv:2606.15200v1 Announce Type: new Abstract: We introduce UCS-Bench, a dataset spanning 170+ hours of egocentric visual observations with 8.1K+ timestamped questions for diagnosing User-Centric Continual Spatial intelligence in egocentric video streams. UCS-Bench targets a new…