研究人员开发了 VoxAfford,一种用于开放词汇三维可供性检测的新颖方法。该方法通过将来自 3D VQVAE 编码器的多尺度几何特征直接集成到输出令牌中,来增强多模态大型语言模型。通过使用可供性语义查询相关的几何模式,然后将这些模式聚合到空间感知的提示中,VoxAfford 显著提高了定位精度。 AI
影响 引入了一种改进 AI 系统中三维物体交互理解的新技术。
排序理由 这是一篇详细介绍三维可供性检测新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →