Nederlands(NL) Text-Guided 6D Object Pose Rearrangement via Closed-Loop VLM Agents

新型VLM代理实现文本引导的6D物体姿态重排

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一种新颖的方法，利用闭环视觉语言模型（VLM）代理实现文本引导的6D物体姿态重排。该方法通过使VLM能够推断出与文本一致的6D目标姿态，解决了VLM在3D理解方面的局限性。该系统会迭代地观察场景，评估指令的一致性，提出姿态更新，并渲染更新后的场景，有效地充当代理。关键技术包括多视角推理、以物体为中心的坐标系可视化和单轴旋转预测，这些技术在无需额外微调的情况下显著提高了性能，并增强了机器人操作能力。 AI

影响增强了VLM在3D理解和机器人操作方面的能力，可能带来更复杂的AI代理。

排序理由详细介绍VLM代理新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 Nederlands(NL) · Sangwon Baik, Gunhee Kim, Mingi Choi, Hanbyul Joo · 2026-06-30 04:00

通过闭环视觉语言模型（VLM）代理实现文本引导的6D物体姿态重排

arXiv:2604.09781v2 Announce Type: replace Abstract: Vision-Language Models (VLMs) exhibit strong visual reasoning capabilities, yet they still struggle with 3D understanding. In particular, VLMs often fail to infer a text-consistent goal 6D pose of a target object in a 3D scene. …

报道来源 [1]

通过闭环视觉语言模型（VLM）代理实现文本引导的6D物体姿态重排

相关实体

相关话题