English(EN) Improving 3D Labeling in Self-Driving by Inferring Vehicle Information using Vision Language Models

视觉语言模型（VLM）改进自动驾驶汽车的三维车辆标注

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了一种方法，通过使用视觉语言模型（VLM）推断车辆品牌、型号和代数，来增强自动驾驶汽车的三维车辆标注。该方法利用零样本推理提供准确的三维边界框尺寸，然后可由人工标注员进行优化。研究表明，这种VLM集成减少了手动标注时间并提高了标注质量，即使在车辆严重遮挡等具有挑战性的场景下也是如此。 AI

影响提高了自动驾驶系统的数据标注效率和质量。

排序理由该集群包含一篇详细介绍新颖研究方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Steven Chen, Shivesh Khaitan, Nemanja Djuric · 2026-05-22 04:00

利用视觉语言模型推断车辆信息，改进自动驾驶中的三维标注

arXiv:2605.21747v1 Announce Type: new Abstract: We present an approach to improve 3D vehicle labeling in self-driving applications through zero-shot inference of vehicle information, leveraging Vehicle Make and Model Recognition (VMMR) methods. The proposed approach utilizes a Vi…

报道来源 [1]

利用视觉语言模型推断车辆信息，改进自动驾驶中的三维标注

相关实体

相关话题