研究人员推出PanoWorld,这是一种新颖的多模态大语言模型,旨在理解360度全景图像。与以往将全景图分解为多个视图的模型不同,PanoWorld原生处理等距柱状投影(ERP),从而实现更好的空间推理。该模型集成了球形空间交叉注意力,并使用新的几何感知、语言基础数据进行训练。PanoWorld在全景空间理解的专门基准测试中表现出色。 AI
影响 增强了AI理解360度环境的能力,这对于机器人和空间AI应用至关重要。
排序理由 介绍新模型和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →