English(EN) VLM-GLoc: Vision-Language Model Enhanced Monte Carlo Localization for Robust Semantic Global Localization in Cluttered Quasi-Static Environments

视觉-语言模型提升机器人在复杂环境中的定位能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了VLM-GLoc，一种利用视觉-语言模型（VLMs）在复杂室内环境中进行全局定位的新方法。该方法通过利用VLMs提取丰富的语义特征、隐式过滤视觉杂乱信息以及推理物体持久性来增强蒙特卡洛定位（MCL）。在超市和实验室空间进行的测试表明，与传统方法相比，VLM-GLoc在全局定位方面取得了显著更高的成功率。 AI

影响通过利用先进的AI模型，增强了机器人在真实、杂乱环境中的导航能力。

排序理由这是一篇描述机器人定位新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Shivendra Agrawal, Bradley Hayes · 2026-06-01 04:00

VLM-GLoc：增强型视觉语言模型蒙特卡洛定位，用于杂乱准静态环境中的鲁棒语义全局定位

arXiv:2605.30506v1 Announce Type: cross Abstract: Global localization in geometrically aliased, quasi-static environments such as grocery stores, offices, schools, and hospitals poses a significant challenge for mobile robots. Grocery stores with parallel aisles and a long tailed…

报道来源 [1]

VLM-GLoc：增强型视觉语言模型蒙特卡洛定位，用于杂乱准静态环境中的鲁棒语义全局定位

相关实体

相关话题