中文(ZH) VLA（视觉-语言-行动）是具身“大脑”最好的解决方案吗？

VLA 成为具身人工智能的顶级解决方案，尽管存在感官局限性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-02 13:01

视觉-语言-动作（VLA）模型因其强大的任务泛化能力，目前是具身人工智能的领先架构。然而，VLA 存在局限性，尤其是在触觉和本体感觉方面，这对于旋转篮球等某些人类动作至关重要。亚马逊人工智能与机器人研究实验室的科学家 Haozhi Qi 认为，VLA 的流行与当前视觉传感器的成熟度以及触觉传感器的发展不成熟有关。他提出，具身系统需要整合其他感官输入，以弥补不那么先进的传感模式，从而使 VLA 成为通过利用视觉和语言来弥补触觉不足的最佳解决方案的有力竞争者。 AI

影响 VLA 在具身人工智能领域的统治地位受到质疑，凸显了超越视觉的多模态传感的必要性，以克服当前的硬件限制。

排序理由讨论了具身人工智能的当前架构范式（VLA）及其局限性，并引用了一位研究者的观点。

在 36氪 (36Kr) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

36氪 (36Kr) TIER_1 中文(ZH) · 2026-05-02 13:01

Is VLA (Vision-Language-Action) the Best Solution for Embodied "Brains"?

由于强大的任务泛化能力，当下VLA已经成为具身模型最主流的架构范式。但事实上，当人类用手指旋转一个篮球时，只用依靠触觉和本体感知，并不需要视觉——这意味着，VLA在这两个感知系统上，存在短板。在GEIS大会上，亚马逊前沿AI与机器人研究院科学家Haozhi Qi认为， VLA的流行，与硬件传感器的发展程度有关：当下，视觉传感器趋于成熟，但触觉传感器还在初级开发阶段。因此，在他看来，具身系统需要通过其他感觉的输入，来补足不太成熟的传感系统，从而维持本体的操作。因此，通过视觉和语言补足触觉缺陷的VLA，成了当下最好的解决方案之一。不过，未来随着传

报道来源 [1]

Is VLA (Vision-Language-Action) the Best Solution for Embodied "Brains"?

相关实体

相关话题