研究人员开发了GeoVR,一个旨在赋予多模态大语言模型(MLLMs)3D空间感知能力的新框架。该系统从标准的2D视频序列中学习几何表示,克服了MLLMs在理解3D空间方面的局限性。GeoVR通过多目标学习策略,结合相机姿态、深度图、尺度因子和多尺度3D特征,从现有的3D基础模型中提炼几何知识。实验表明,GeoVR在空间推理基准测试中设定了新的最先进水平。 AI
影响 增强了MLLMs的空间推理能力,可能在机器人和虚拟环境中实现更复杂的应用。
排序理由 该集群包含一篇详细介绍大语言模型新框架的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →