PulseAugur
实时 13:55:13
English(EN) Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

新框架GeoVR教会大语言模型从2D视频中获得3D空间感知能力

研究人员开发了GeoVR,一个旨在赋予多模态大语言模型(MLLMs)3D空间感知能力的新框架。该系统从标准的2D视频序列中学习几何表示,克服了MLLMs在理解3D空间方面的局限性。GeoVR通过多目标学习策略,结合相机姿态、深度图、尺度因子和多尺度3D特征,从现有的3D基础模型中提炼几何知识。实验表明,GeoVR在空间推理基准测试中设定了新的最先进水平。 AI

影响 增强了MLLMs的空间推理能力,可能在机器人和虚拟环境中实现更复杂的应用。

排序理由 该集群包含一篇详细介绍大语言模型新框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Haibo Wang, Lifu Huang ·

    从视频中学习几何表示,用于空间智能多模态大语言模型

    arXiv:2606.05833v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcit…

  2. arXiv cs.CV TIER_1 English(EN) · Lifu Huang ·

    从视频中学习几何表示,用于空间智能多模态大语言模型

    Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcity of large-scale 3D data, we present GeoVR, a no…