研究人员开发了ST-Merge,一个旨在加速机器人中使用的视觉语言模型(VLMs)和视觉语言动作模型(VLAs)推理速度的新型框架。这种即插即用、无需训练的方法通过构建3D时空坐标并采用并行匹配和加权聚合机制,在编码阶段有效地融合冗余的视觉令牌。ST-Merge还包括一个后融合位置校正机制,以保持空间精度。该框架已展示出显著的速度提升,在Qwen2.5-VL模型上实现了2倍的推理速度提升,精度损失极小,并在高分辨率下实现了8.3倍的VLA策略速度提升。 AI
影响 通过降低视觉语言模型的延迟,加速了机器人应用的实时控制。
排序理由 该集群描述了一种用于改进现有模型类型性能的新技术框架,详细介绍于一篇arXiv论文中。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →