PulseAugur
实时 04:42:40

新的ST-Merge框架提升机器人VLM/VLA的推理速度

研究人员开发了ST-Merge,一个旨在加速机器人中使用的视觉语言模型(VLMs)和视觉语言动作模型(VLAs)推理速度的新型框架。这种即插即用、无需训练的方法通过构建3D时空坐标并采用并行匹配和加权聚合机制,在编码阶段有效地融合冗余的视觉令牌。ST-Merge还包括一个后融合位置校正机制,以保持空间精度。该框架已展示出显著的速度提升,在Qwen2.5-VL模型上实现了2倍的推理速度提升,精度损失极小,并在高分辨率下实现了8.3倍的VLA策略速度提升。 AI

影响 通过降低视觉语言模型的延迟,加速了机器人应用的实时控制。

排序理由 该集群描述了一种用于改进现有模型类型性能的新技术框架,详细介绍于一篇arXiv论文中。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的ST-Merge框架提升机器人VLM/VLA的推理速度

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Junzhou Chen, Jindong Wang, Gang Zhou ·

    快到足以行动:用于低延迟机器人VLMs和VLAs的时空视觉令牌合并

    arXiv:2606.29350v1 Announce Type: cross Abstract: Vision-language models and vision-language action models endow the robot with unprecedented capabilities. However, the input of video and high-resolution images yields a massive number of visual tokens, leading to extremely high i…