English(EN) Bridging the Semantic-Action Gap in Visual Token Pruning for Efficient VLA Inference

VLA-Pruner通过优化视觉令牌剪枝来增强具身AI的效率

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了VLA-Pruner，一种使视觉-语言-动作（VLA）模型在具身AI任务中更高效的新方法。现有的视觉令牌剪枝技术，专为视觉-语言模型设计，在VLA系统中会降低性能，因为它们没有考虑到语言预填充和动作解码阶段之间不同的注意力模式。VLA-Pruner通过同时考虑语义显著性和时间动作相关性来解决这个问题，在各种VLA架构上实现了高达1.99倍的速度提升，且操纵质量相当。 AI

影响优化VLA模型以实现实时具身AI应用，可能使机器人代理更具响应性和效率。

排序理由这是一篇详细介绍提高AI模型效率的新颖方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ziyan Liu, Yeqiu Chen, Hongyi Cai, Tao Lin, Shuo Yang, Zheng Liu, Bo Zhao · 2026-05-26 04:00

弥合视觉令牌剪枝中的语义-动作鸿沟以实现高效VLA推理

arXiv:2511.16449v4 Announce Type: replace-cross Abstract: Vision-Language-Action (VLA) models have shown great potential for embodied AI by integrating visual perception, language understanding, and action execution. In real-time deployment, these models must process continuous v…

报道来源 [1]

弥合视觉令牌剪枝中的语义-动作鸿沟以实现高效VLA推理

相关实体

相关话题