Chat-Scene++ 通过富含上下文的对象识别推进了 3D LLM 的场景理解

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员推出 Chat-Scene++，一个旨在增强多模态大语言模型 (MLLMs) 进行 3D 场景理解的新框架。该方法将 3D 场景构建为对象序列，并融入上下文语义以改进对象识别和推理。Chat-Scene++ 使用 3D 和 2D 编码器提取丰富的对象特征，从而实现有依据的链式思考推理。该框架在五个主要的 3D 视觉-语言基准测试中取得了最先进的成果，并且仅使用 2D 输入即可运行。 AI

影响提高了 LLM 的 3D 场景理解能力，可能在机器人和虚拟环境中实现更复杂的应用。

排序理由这是一篇介绍用于 LLM 3D 场景理解的新框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

Chat-Scene++ 通过富含上下文的对象识别推进了 3D LLM 的场景理解

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Haifeng Huang, Yilun Chen, Zehan Wang, Jiangmiao Pang, Zhou Zhao · 2026-04-28 04:00

Chat-Scene++：利用富含上下文的对象识别技术实现3D大语言模型

arXiv:2603.27507v2 Announce Type: replace Abstract: Recent advancements in multi-modal large language models (MLLMs) have shown strong potential for 3D scene understanding. However, existing methods struggle with fine-grained object grounding and contextual reasoning, limiting th…

报道来源 [1]

Chat-Scene++：利用富含上下文的对象识别技术实现3D大语言模型

相关实体

相关话题