PulseAugur
实时 18:10:57
English(EN) VoxAfford: Multi-Scale Voxel-Token Fusion for Open-Vocabulary 3D Affordance Detection

VoxAfford 通过多尺度体素-令牌融合改进三维可供性检测

研究人员开发了 VoxAfford,一种用于开放词汇三维可供性检测的新颖方法。该方法通过将来自 3D VQVAE 编码器的多尺度几何特征直接集成到输出令牌中,来增强多模态大型语言模型。通过使用可供性语义查询相关的几何模式,然后将这些模式聚合到空间感知的提示中,VoxAfford 显著提高了定位精度。 AI

影响 引入了一种改进 AI 系统中三维物体交互理解的新技术。

排序理由 这是一篇详细介绍三维可供性检测新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

VoxAfford 通过多尺度体素-令牌融合改进三维可供性检测

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Haowen Sun, Shaolong Zhang, Mingyang Li, Chengzhong Ma, Xinzhe Chen, Qiongjie Cui, Xingyu Chen, Zeyang Liu, Xuguang Lan ·

    VoxAfford: Multi-Scale Voxel-Token Fusion for Open-Vocabulary 3D Affordance Detection

    arXiv:2605.01365v1 Announce Type: new Abstract: Open-vocabulary 3D affordance detection requires localizing interaction regions on point clouds given novel affordance descriptions. Recent methods extend multimodal large language models (MLLMs) with special output tokens that are …