研究人员推出了一种新颖的视频多模态大语言模型 (MLLM) Cambrian-P,该模型整合了相机姿态信息。这种方法将视频帧视为连续空间场景的一部分,而非孤立图像,从而在空间推理基准测试中取得了显著的改进。该模型在 VSI-Bench 上取得了 4.5-6.5% 的提升,并在其他视频问答任务中展现了强大的泛化能力。 AI
影响 将相机姿态整合到视频大语言模型中,有望提高 AI 系统的空间理解和推理能力。
排序理由 该集群包含一篇详细介绍新模型及其在基准测试中表现的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →