研究人员开发了SGFormer++,这是一种新颖的语义图Transformer,用于增量式3D场景图生成。该模型利用Transformer层进行全局消息传递,克服了传统图卷积网络的局限性。关键创新包括用于高效上下文集成的图嵌入层++(Graph Embedding Layer++)和用于通过大型语言模型及视觉语言模型的语言先验丰富视觉特征的语义注入层++(Semantic Injection Layer++)。SGFormer++还集成了空间引导特征适配器(Spatial-guided Feature Adapter)和级联二元预测头(Cascaded Binary Prediction Head),以解决增量式场景图生成中的挑战,如灾难性遗忘和尺度变化。 AI
影响 这项研究推动了场景图生成领域的发展,有望提升AI对复杂3D环境及物体关系的理解能力。
排序理由 该集群描述了一篇详细介绍新模型架构及其在基准测试中性能的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- 3DSSG benchmark
- graph convolutional network
- large language models
- SGFormer++
- transformer
- Vision--Language Models
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →