AVP架构通过视觉原语增强机器人操控能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员为机器人领域的视觉-语言-动作模型开发了一种名为AVP（Action with Visual Primitives）的新架构。该方法将指令理解和场景理解与运动控制分离，允许预训练的视觉-语言模型推断目标位置并发出视觉原语令牌。这些令牌随后会条件化一个独立的动作专家，从而提高了在真实机器人抓取和放置任务上的数据效率和泛化能力。 AI

影响 AVP架构通过将感知与动作解耦，提高了机器人操控的成功率和数据效率。

排序理由该集群包含一篇详细介绍机器人操控新架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Weilong Guo, Yuchen Wang, Renping Zhou, Yunfeng Zhang, Rui Fang, Yuyang Pang, Wenda Xu, Gao Huang · 2026-05-26 04:00

视觉原语的动作

arXiv:2605.22183v2 Announce Type: replace-cross Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for generalist robotic manipulation. A common design in current architectures maps language instructions and visual observations to actions in a sing…

报道来源 [1]

视觉原语的动作

相关实体

相关话题