English(EN) VoxAfford: Multi-Scale Voxel-Token Fusion for Open-Vocabulary 3D Affordance Detection

VoxAfford 通过多尺度体素-令牌融合改进三维可供性检测

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了 VoxAfford，一种用于开放词汇三维可供性检测的新颖方法。该方法通过将来自 3D VQVAE 编码器的多尺度几何特征直接集成到输出令牌中，来增强多模态大型语言模型。通过使用可供性语义查询相关的几何模式，然后将这些模式聚合到空间感知的提示中，VoxAfford 显著提高了定位精度。 AI

影响引入了一种改进 AI 系统中三维物体交互理解的新技术。

排序理由这是一篇详细介绍三维可供性检测新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Haowen Sun, Shaolong Zhang, Mingyang Li, Chengzhong Ma, Xinzhe Chen, Qiongjie Cui, Xingyu Chen, Zeyang Liu, Xuguang Lan · 2026-05-05 04:00

VoxAfford: Multi-Scale Voxel-Token Fusion for Open-Vocabulary 3D Affordance Detection

arXiv:2605.01365v1 Announce Type: new Abstract: Open-vocabulary 3D affordance detection requires localizing interaction regions on point clouds given novel affordance descriptions. Recent methods extend multimodal large language models (MLLMs) with special output tokens that are …

报道来源 [1]

VoxAfford: Multi-Scale Voxel-Token Fusion for Open-Vocabulary 3D Affordance Detection

相关实体

相关话题