Kitti · PulseAugur

LipSSD 论文引入 Lipschitz 约束以实现鲁棒的目标检测

研究人员推出 LipSSD，一种增强目标检测系统对抗鲁棒性的新方法。通过将 Lipschitz 约束纳入架构，LipSSD 旨在创建对恶意扰动具有内在更高抵抗力的检测器。该方法提供了传统对抗性训练的设计级替代方案，在未见过的攻击上表现出改进的性能，并在 LARD 和 KITTI 等安全关键数据集上保持了干净的准确性。

RESEARCH · CL_133257 · Jul 8 · 00:04

新研究发现：视觉模型无法验证物理因果关系

一篇题为《几何崩溃：视觉模型何时无法验证物理因果关系》的新研究论文介绍了一种受控的反事实方法，称为 Scrambled Edges。该方法将类似边缘的线索注入视觉数据，同时违反物理合理性，例如表面连续性和遮挡顺序。在 NYU Depth v2 和 KITTI 等数据集上，对包括 CNN 和 ViT 在内的各种深度预测器进行的实验表明，与噪声相比，Scrambled Edges 导致与干净预测的偏差显著更大。研究表明，当前的密集预测器难…

RESEARCH · CL_131396 · Jul 7 · 17:54

文本到图像模型通过ReChannel方法适配密集预测任务

研究人员开发了一种名为ReChannel的新方法，该方法利用大型文本到图像模型进行密集预测任务。ReChannel不生成新的RGB内容，而是将预训练模型适配为输出特定任务、像素精确的场。这种方法利用了像Diffusion Transformers (DiT)这样的模型的现有patch到token结构，将token映射到承载原生数量的输出patch。该方法在多个密集预测基准测试中取得了最先进的成果，包括无三联图抠图和KITTI深度估计，…

RESEARCH · CL_131311 · Jul 7 · 07:54

NegROI框架通过负面提示改进3D分割

研究人员推出了一种名为NegROI的新型基于Transformer的框架，旨在增强交互式3D分割。该方法通过将以点击为中心的精炼与场景条件负面提示相结合，解决了体素分辨率粗糙和假阳性等挑战。NegROI仅精炼用户点击周围的局部感兴趣区域，并利用置信度驱动的选择性精炼来优先处理模糊区域，从而提高不同数据集的效率和鲁棒性。

TOOL · CL_129558 · Jul 7 · 04:00

新的 LAYS 方法改进了用于定位的跨视图偏航估计

研究人员开发了一种名为 LAYS 的新型跨视图偏航估计方法，这对于地面视角和鸟瞰视角之间的准确本地化至关重要。这项新技术将偏航与平移分离，克服了依赖高度或投影假设的现有方法的局限性。LAYS 利用径向不变的线共识投票方法，通过分析地面图像列和 BEV 像素之间的特征相似性并累积偏航投票，实现了亚度偏航精度。在 Mapillary、Ford、KITTI 和 VIGOR 等数据集上的实验表明，在未知偏航的情况下，该方法取得了显著的改进，并…

TOOL · CL_129533 · Jul 7 · 04:00

新的几何可观性指数增强了 SE(3) 位姿估计

研究人员引入了几何可观性指数（GOI），这是一个用于评估 SE(3) 环境中位姿估计敏感性的新颖指标。该指数量化了单个测量值对估计位姿的影响，并与 M 估计量和费舍尔信息建立了联系。GOI 的最小特征值直接指示弱可观性和有限样本稳定性，提供了一个已通过合成数据和 TUM RGB-D、KITTI 等真实世界数据集上的实验验证的理论框架。

TOOL · CL_129455 · Jul 7 · 04:00

新的 MRAC 方法通过离群值鲁棒锚点改进单目深度估计

研究人员开发了一种名为多路径鲁棒锚点校准 (MRAC) 的新方法，以提高单目深度估计的准确性。现有方法在用于提供绝对尺度的稀疏度量锚点被离群值破坏时会遇到困难。MRAC 作为一种推理时包装器，通过检查锚点与基础模型的相对深度预测的一致性来过滤这些不可靠的锚点。这种方法不需要额外的学习参数，并且可以显著减少错误，尤其是在锚点数据不正确的情况下。

TOOL · CL_118127 · Jun 30 · 04:00

新的LeAD-M3D系统在无LiDAR的情况下实现了实时单目3D检测

研究人员开发了LeAD-M3D，一种新颖的单目3D目标检测系统，该系统在不依赖LiDAR或立体视觉的情况下实现了最先进的准确性和实时推理。该系统利用非对称增强去噪蒸馏（A2D2）将几何知识从教师模型转移到学生模型，增强深度推理能力。此外，3D感知一致性匹配（CM3D）改进了预测到真实值的分配，而置信门控3D推理（CGI3D）通过将计算资源集中在置信度高的预测上，加速了处理过程。LeAD-M3D在单目3D检测方面展示了新的帕累托前沿，在…

TOOL · CL_118091 · Jun 30 · 04:00

新的攻击方法揭示了LiDAR 3D目标检测器的结构性漏洞

研究人员开发了一种名为面向可解释性的视锥攻击（EFA）的新方法，以揭示基于LiDAR的3D目标检测器的漏洞。通过分析这些检测器如何利用空间证据，显著性LiDAR（SALL）方法创建了突出影响区域的显著图。EFA然后针对这些特定区域，与现有方法相比，用更少的扰动显著降低了检测召回率。这项研究表明，当前的3D检测器严重依赖于有限的空间区域，揭示了LiDAR感知系统的结构性弱点。

TOOL · CL_110039 · Jun 25 · 04:00

新的ADM-Fusion方法通过自适应多传感器融合增强了自主运动估计

研究人员开发了ADM-Fusion，一种用于自主运动估计的新型深度学习方法，可自适应地融合来自多个传感器的数据。该方法利用混合专家框架和内容感知路由，实时动态调整传感器输入权重，即使在环境条件恶劣或传感器不可靠的情况下也能确保鲁棒性。该系统还为平移和旋转提供单独的分支，并通过跨任务注意力机制连接，以促进信息共享，同时保持专业化。ADM-Fusion已证明了有效的模拟到现实迁移能力，并且在性能上与现有方法具有竞争力。

RESEARCH · CL_107899 · Jun 23 · 16:48

Pocket-SLAM 解决了 3DGS-SLAM 在自动驾驶中的内存限制问题

研究人员开发了 Pocket-SLAM，一种提高 3D 高斯泼溅同步定位与地图构建 (SLAM) 内存效率的新方法。该方法解决了大规模场景中高斯点累积导致内存消耗过高的问题。通过根据高斯点对渲染区域的贡献进行选择性剪枝，Pocket-SLAM 在不影响精度的前提下显著降低了内存占用并提高了处理速度。该方法有望应用于自动驾驶等实际场景。

RESEARCH · CL_105108 · Jun 22 · 17:06

Polycepta框架通过动态表观估计增强多目标跟踪能力

研究人员开发了Polycepta，一个用于多目标跟踪中以物体为中心的表观状态估计的新框架。与使用静态描述符的传统方法不同，Polycepta递归地估计并持续更新每个物体的独立表观状态，从而随着时间的推移提高准确性。这种方法可以估计未知类别的表观，并在KITTI等基准测试中展示了显著的性能提升，包括身份切换的减少和最先进的结果。

TOOL · CL_97986 · Jun 17 · 16:35

新的CABLE框架提高了V2X系统中LMM的效率

研究人员开发了CABLE，一个旨在提高大型多模态模型（LMM）在车联网（V2X）系统中效率的新框架。该系统通过仅将感兴趣区域（ROIs）的遮蔽部分从边缘设备上传到云端，而不是上传完整分辨率的帧，从而减少了通信开销和云端延迟。CABLE利用先前的分割掩码、自身运动补偿和残差运动线索来定义这些ROIs，在云端和边缘之间创建了一个反馈循环。在多个数据集上的实验表明，在检测质量略有下降的情况下，通信节省显著，LMM预填充速度得到提高。

TOOL · CL_93196 · Jun 16 · 04:00

新的RAMS系统为边缘AI感知适配YOLOv8层级

研究人员开发了RAMS，一种专为嵌入式边缘感知系统设计的新型运行时控制器。RAMS根据实时设备资源监控和检测条件，在YOLOv8模型的不同层级之间动态切换。这种自适应方法旨在优化推理延迟和检测质量之间的平衡，尤其是在资源受限的环境中，例如在Raspberry Pi 5和NVIDIA Jetson Orin平台上。

RESEARCH · CL_93091 · Jun 15 · 09:39

MVOFormer Transformer 提升单目视觉里程计鲁棒性

研究人员推出 MVOFormer，一个新推出的基于 Transformer 的框架，旨在增强自动导航的单目视觉里程计 (MVO)。该模型整合了几何运动线索和语义对象先验，以更好地区分静态和动态元素，从而实现更鲁棒的姿态估计。MVOFormer 展示了强大的零样本泛化能力，在 TartanAir、KITTI、TUM-RGBD 和 ETH3D-SLAM 等基准测试中表现优于现有方法，且无需领域特定的微调。

TOOL · CL_86918 · Jun 12 · 04:00

DiskChunGS通过磁盘内存管理实现大规模3D高斯SLAM

研究人员开发了DiskChunGS，一个新颖的3D高斯泼溅SLAM系统，旨在克服大规模3D重建的GPU内存限制。通过采用out-of-core方法，该系统将非活动场景部分存储在磁盘上，同时将活动区域保留在GPU内存中。该方法与现有的SLAM框架集成，用于姿态估计和回环检测，从而实现以前受硬件限制的一致性、大规模重建。

RESEARCH · CL_82207 · Jun 9 · 10:17

研究人员分析用于目标检测数据集错误的无训练方法

研究人员分析了无训练方法在检测目标检测数据集中标注错误方面的有效性。他们的发现表明，这些方法能够有效地识别语义错误标记，但在处理位置错误方面存在困难。该研究在各种预训练嵌入模型、合成噪声类型以及VOC2012和KITTI等真实世界数据集上评估了这些方法。

TOOL · CL_80193 · Jun 9 · 04:00

卫星图像解决了3D重建模型中的尺度模糊问题

研究人员开发了一种新方法，通过利用卫星图像作为全局度量参考来解决前馈3D重建模型中的尺度模糊问题。该方法将卫星图像块与重建骨干网络集成，强制执行一致性以推断绝对尺度、精炼几何形状并在度量坐标系中估计相机姿态。该框架在多个数据集上展示了度量深度估计、点云重建和相机本地化方面的改进。

TOOL · CL_77424 · Jun 8 · 04:00

新方法匹配二维多边形以进行姿态估计

研究人员引入了一种新颖的预训练模型零样本多边形匹配（Z(PM)2）范式，以应对立体图像中二维多边形匹配的挑战。该方法利用Segment Anything Model等预训练模型将分割掩码矢量化为多边形表示，然后采用结合几何约束的全局和局部匹配策略。Z(PM)2在姿态估计方面表现出强大的性能，并引入了用于三维重建的多边形云概念，在多个数据集上超越了现有方法，且无需特定任务的训练。

RESEARCH · CL_72625 · Jun 4 · 06:58

LiAuto-GeoX transformer 实现实时3D驾驶场景理解

研究人员开发了LiAuto-GeoX，这是一种用于自动驾驶中实时3D场景理解的高效Transformer模型。该模型利用稀疏LiDAR数据进行几何接地，并采用新颖的蒸馏框架创建了一个紧凑的1.55亿参数车载版本。LiAuto-GeoX在KITTI数据集上实现了220 FPS的高保真重建，并在轨迹和占用预测等下游任务中表现强劲。