English(EN) Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models

新协议衡量VLA模型的常识知识

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 17:20

研究人员开发了Act2Answer，这是一个新的评估协议，旨在评估视觉-语言-动作（VLA）模型在机器人数据上进行微调后保留的常识和世界知识。该协议通过让智能体在桌面环境中通过特定动作选择答案来调整现有的VLM知识基准，从而减少与低级控制相关的混淆。对七个VLA模型和九个VLM基线的大规模研究表明，虽然VLA模型在简单概念上表现良好，但与它们的源VLM相比，它们在复杂语义领域表现出更大的知识差距。研究还表明，VQA联合训练有助于知识保留，并且相关信号在VLA模型的中层最强。 AI

影响这种新的评估方法可能导致对VLA模型能力进行更准确的评估，从而推动具身人工智能和机器人技术的改进。

排序理由该集群描述了一篇介绍VLA模型评估协议的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-17 17:20

VLA是否了解基础知识？衡量视觉-语言-动作模型中的常识和世界知识保留能力

Embodied Vision-Language-Action (VLA) models are typically obtained by fine-tuning powerful pretrained VLMs on robotics data, yet it is unclear how much commonsense and factual knowledge they retain after adaptation. Failures on knowledge-sensitive tasks are ambiguous, conflating…

报道来源 [1]

VLA是否了解基础知识？衡量视觉-语言-动作模型中的常识和世界知识保留能力

相关实体

相关话题