SCANNET
PulseAugur coverage of SCANNET — every cluster mentioning SCANNET across labs, papers, and developer communities, ranked by signal.
4 天有情绪数据
-
Cambrian-P 视频模型利用相机姿态改进空间推理
研究人员推出了一种新颖的视频多模态大语言模型 (MLLM) Cambrian-P,该模型整合了相机姿态信息。这种方法将视频帧视为连续空间场景的一部分,而非孤立图像,从而在空间推理基准测试中取得了显著的改进。该模型在 VSI-Bench 上取得了 4.5-6.5% 的提升,并在其他视频问答任务中展现了强大的泛化能力。
-
New MIND framework tackles model-induced label noise
Researchers have introduced MIND, a novel framework designed to tackle model-induced label noise in machine learning. This noise arises from the inherent biases of pre-trained models used for data annotation, leading to…
-
Invaria编码器学习点云的尺度和密度不变性
研究人员开发了一种名为Invaria的新型点云编码器,旨在克服当前3D模型对尺度和密度变化的敏感性。与图像编码器不同,3D模型在不同分辨率和尺度上的泛化能力通常较差,这阻碍了它们在机器人等领域的实际应用。Invaria通过一种新颖的下一分辨率预测目标来学习尺度和密度不变性,鼓励模型捕捉鲁棒的结构特征,而不是过拟合到特定的数据特征。这种方法带来了显著的性能提升,例如在ScanNet上,使用较低分辨率时mIoU提高了56.0%,在物体尺度…
-
新框架解决开放词汇三维场景图生成问题
两篇新的研究论文介绍了一种用于生成开放词汇三维场景图的新框架。第一篇RelWitness通过使用视觉-几何线索来验证对象之间的关系,解决了不完全监督的问题。第二种方法采用层级化、整体化的方法,从二维视觉证据锚定功能性边缘,并通过室内空间的时间图处理进行优化。这两种方法都旨在提高机器人和场景分析应用中三维场景理解的准确性和完整性。
-
EvObj通过域自适应推进无监督3D实例分割
研究人员开发了EvObj,一种新颖的无监督3D实例分割方法,克服了合成数据与真实世界数据之间的域差距。该方法采用物体辨别模块来适应物体先验,并采用物体补全模块来重建部分几何体。EvObj在合成和真实世界数据集上均展现出最先进的性能,优于现有的分割基线。
-
新系统使用RGB摄像头映射和对齐3D场景图
研究人员开发了创建3D场景图的新方法,这对于机器人导航和理解至关重要。LEXI-SG是一个新颖的系统,仅使用RGB摄像头输入即可实现密集的单目视觉映射,将场景划分为房间以进行可扩展的重建。另外,OpenSGA提供了一个高效的框架来对齐3D场景图,融合视觉-语言、文本和几何特征以建立对象对应关系。这两种方法都旨在提高机器人的记忆和环境交互能力。
-
New FSTM method efficiently learns indoor 3D geometry and semantics
Researchers have developed a new method called FSTM for indoor 3D reconstruction that efficiently learns both geometry and semantics. This approach first optimizes geometry using RGB inputs and geometric cues, then esti…
-
CoFL uses continuous flow fields for improved language-conditioned navigation
Researchers have introduced CoFL, a novel end-to-end policy for language-conditioned navigation that maps bird's-eye view observations and instructions to continuous flow fields. This approach reformulates navigation as…
-
FUSER transformer achieves efficient multiview 3D registration with diffusion refinement
Researchers have introduced FUSER, a novel feed-forward transformer designed for multiview 3D registration. This model processes all scans simultaneously in a latent space to directly predict global poses, bypassing the…
-
PointTransformerX 提供无需稀疏算法即可进行的便携高效3D点云处理
研究人员开发了PointTransformerX (PTX),这是一种用于处理3D点云的新型视觉Transformer骨干网络,无需自定义CUDA算子。这款原生PyTorch模型在实现具有竞争力的准确性的同时,显著减少了参数数量和内存使用量,使其在包括AMD GPU和CPU在内的不同硬件上更加高效和便携。PTX引入了3D-GS-RoPE等新颖的位置嵌入技术,并用线性投影取代稀疏卷积,从而加快了3D感知任务的推理速度并提高了可访问性。