新的ST-Merge框架提升机器人VLM/VLA的推理速度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了ST-Merge，一个旨在加速机器人中使用的视觉语言模型（VLMs）和视觉语言动作模型（VLAs）推理速度的新型框架。这种即插即用、无需训练的方法通过构建3D时空坐标并采用并行匹配和加权聚合机制，在编码阶段有效地融合冗余的视觉令牌。ST-Merge还包括一个后融合位置校正机制，以保持空间精度。该框架已展示出显著的速度提升，在Qwen2.5-VL模型上实现了2倍的推理速度提升，精度损失极小，并在高分辨率下实现了8.3倍的VLA策略速度提升。 AI

影响通过降低视觉语言模型的延迟，加速了机器人应用的实时控制。

排序理由该集群描述了一种用于改进现有模型类型性能的新技术框架，详细介绍于一篇arXiv论文中。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Junzhou Chen, Jindong Wang, Gang Zhou · 2026-06-30 04:00

快到足以行动：用于低延迟机器人VLMs和VLAs的时空视觉令牌合并

arXiv:2606.29350v1 Announce Type: cross Abstract: Vision-language models and vision-language action models endow the robot with unprecedented capabilities. However, the input of video and high-resolution images yields a massive number of visual tokens, leading to extremely high i…

报道来源 [1]

快到足以行动：用于低延迟机器人VLMs和VLAs的时空视觉令牌合并

相关实体

相关话题