新的VLA模型将帧压缩为单个标记，提升性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 16:04

研究人员开发了一种名为OneWM-VLA的新方法，用于视觉-语言-动作（VLA）模型，该方法优化了长时规划的视觉信息处理方式。该方法将每一帧压缩为单个语义标记，在不牺牲性能的情况下显著降低了视觉带宽。OneWM-VLA使用相对较少数量的参数在2B骨干网上进行训练，在包括MetaWorld MT50和LIBERO-Long在内的多个具有挑战性的基准测试中，成功率得到了显著提高，并在现实世界的机器人任务中显示出潜力。 AI

影响这项研究可能为机器人和长时规划任务带来更高效、更强大的视觉-语言-动作模型。

排序理由该集群包含一篇新的学术论文，详细介绍了新颖的模型架构及其在基准测试中的性能改进。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Bin Liu · 2026-05-08 16:04

每帧一个 Token：重新审视 VLA 策略的世界模型的视觉带宽

Vision-language-action (VLA) models increasingly rely on auxiliary world modules to plan over long horizons, yet how such modules should be parameterized on top of a pretrained VLA remains an open design question. Existing world-model-augmented VLAs typically pass the per-frame v…

报道来源 [1]

每帧一个 Token：重新审视 VLA 策略的世界模型的视觉带宽

相关实体

相关话题