Vision Language Action (VLA) models

新流水线通过专业化角色和数据策展提高机器人训练效率

研究人员开发了一种新颖的流水线，以提高大规模视觉语言动作（VLA）机器人模型训练后的人类效率。该方法通过将角色专业化为用于高价值干预的远程操作员和用于监控多个机器人的地面操作员，从而优化了人力，使得一小队人可以管理更多的机器人。该流水线还引入了VLAC-CUT，这是一个通过将机器人轨迹数据分割成有用、空闲、导致失败和恢复部分来策展数据的工具，这些数据随后与人工干预数据一起用于后续的训练轮次。该方法在现实世界的操作任务中显示出显著的改进…

TOOL · CL_129569 · Jul 7 · 04:00

ThinkProprio 整合机器人状态以提升 VLA 模型注意力和速度

研究人员开发了一种名为 ThinkProprio 的新方法，用于视觉-语言-动作 (VLA) 模型，该方法将本体感觉数据更有效地整合到决策过程中。与将状态信息视为后期条件信号的传统方法不同，ThinkProprio 将本体感觉离散化为 token，从而主动引导 VLA 模型对相关视觉信息的注意力。该方法在 CALVIN、LIBERO 和真实世界操作任务等各种基准测试中都表现出更高的性能和更低的推理延迟。

TOOL · CL_128939 · Jul 7 · 04:00

新的批评者衡量具身人工智能推理的忠实性

研究人员开发了一种新方法来评估视觉-语言-动作（VLA）模型在推理中的忠实性，特别是在自动驾驶等具身任务中。他们区分了提高性能的功能性推理和准确反映模型决策过程的忠实性推理。他们提出的批评者 Pinocchio 衡量中间推理步骤的接地和连贯性，当用作强化学习中的奖励信号时，与现有的对齐策略相比，忠实性提高了 4%，与轨迹误差基线相比，忠实性提高了 18%。

TOOL · CL_123347 · Jul 2 · 15:30

新的数据策略提升了VLA模型在机器人领域的空间泛化能力

研究人员开发了一种新的数据收集策略，以提高用于机器人操作的视觉-语言-动作（VLA）模型的空间泛化能力。研究认为，仅仅增加视点数量是不够的，模型常常会因为关注虚假关联而陷入捷径学习。通过采用一种结合连续摄像机运动和多样化静态视点的混合方法，所提出的方法显著减少了这些虚假关联，从而提高了性能和训练稳定性。该策略已被证明有利于各种VLA模型架构，使其能够更好地泛化到未见的摄像机姿态和物体配置。

RESEARCH · CL_123098 · Jul 2 · 00:00

新的TAP框架减少了VLA模型对专家数据的需求

研究人员引入了一个名为任务无关预训练（TAP）的新框架，旨在克服视觉-语言-动作（VLA）模型中的数据稀缺瓶颈。TAP采用两阶段方法：首先，它利用无标签交互数据通过自监督逆动力学目标学习可迁移的运动技能，然后用最少的专家语言数据来巩固这些技能。这种方法显著减少了对昂贵专家演示的需求，在标记数据量少几个数量级的情况下，达到了与在数百万专家轨迹上训练的模型相当的性能。

TOOL · CL_121172 · Jul 1 · 00:00

新的DART方法使单样本VLA模型能够适应环境迁移

研究人员开发了一种名为域算术（Domain ARiThmetic, DART）的新方法，能够以最少的数据高效地将视觉-语言-动作（VLA）模型适应到新环境。DART利用权重向量算术和特定域信息添加，仅需一次演示即可完成适应。该方法在模拟和真实世界场景中均优于现有方法，解决了相机姿态或机器人实体变化带来的挑战。

TOOL · CL_117576 · Jun 30 · 04:00

X-Mind 框架整合预测世界模型以实现高效的端到端驾驶

研究人员推出 X-Mind，一个旨在通过整合预测世界模型来增强 Vision-Language-Action (VLA) 模型端到端驾驶能力的新框架。与先前将这些模型视为外部或浅层添加物的方法不同，X-Mind 将其内化为视觉思维链 (Visual CoT)，迫使模型在采取行动前推理未来的环境动态。为了解决效率问题，X-Mind 采用紧凑的视觉思维表示，将 12 帧的未来预测压缩到仅 96 个 token，并利用循环块扩散方案在单次前…

RESEARCH · CL_109502 · Jun 24 · 17:59

机器人操作模型通过两阶段训练获得运动先验 · 跟踪 2 个来源

研究人员开发了一种新颖的两阶段训练框架，以改进用于机器人操作的视觉-语言-动作 (VLA) 模型。该方法首先使用无条件动作轨迹预训练具有运动先验的动作模块，然后将其与视觉和语言特征对齐。通过为动作模块提供明确的运动先验，该方法提高了收敛速度、成功率和性能，尤其是在数据有限的现实世界任务中。

TOOL · CL_109508 · Jun 24 · 16:23

新的FORCE框架提升了视觉-语言-动作模型强化学习微调的效率

研究人员开发了FORCE，一个新颖的三阶段框架，旨在提高视觉-语言-动作（VLA）模型强化学习（RL）微调的效率和稳定性。该方法通过价值校准预热阶段稳定Q函数，解决了灾难性遗忘和低效策略更新等常见问题。FORCE还过滤动作，确保仅使用高价值数据进行策略更新，从而在无人干预的情况下实现显著的性能提升和加速训练。

RESEARCH · CL_99608 · Jun 18 · 09:34

新的 Tri-Info 方法可高精度预测 VLA 模型故障

研究人员开发了一种名为 Tri-Info 的新方法来预测视觉-语言-动作 (VLA) 模型的故障。该方法利用信息论来分析模型成功和失败的签名的回滚。Tri-Info 在各种 VLA 模型和环境中表现出强大的性能，甚至在模拟任务和现实世界任务之间有效转移，准确率为 83%。

TOOL · CL_97636 · Jun 17 · 11:37

新框架在无标签人类视频上训练视频语言动作模型

研究人员开发了一个新框架，使用无标签的以自我为中心的人类视频来训练视频语言动作（VLA）模型。该系统采用混合解耦VQ-VAE将运动动力学与背景分离，创建了一个跨具身动作代码本。这种预训练使视频语言模型（VLM）骨干能够学习动作意图，而意图感知解耦策略通过将动作意图与特定状态的视觉特征分离来进一步优化预测。该方法在需要最少下游适应的情况下，与在大量标注数据集上训练的最先进VLA模型相比，表现具有竞争力。

RESEARCH · CL_106805 · Jun 17 · 00:00

新研究增强了用于机器人和视觉推理的VLA模型

近期研究探索了增强用于机器人操作和通用视觉推理的视觉-语言-动作（VLA）模型。研究通过域随机化和照片级真实感渲染来研究模拟到现实的泛化能力，并提出诸如 Faithful Warm-Start 等方法，通过在强化学习前确保视觉保真度来提高VLM推理的稳定性。其他工作引入了置信度驱动的测试时强化学习，无需外部奖励即可实现自我改进，以及状态感知分词器，以更好地从离散代码中解码动作。此外，研究还检查了VLA模型中的架构冗余，发现语言骨干对于…

RESEARCH · CL_91038 · Jun 11 · 20:23

新框架通过推理和物理基础增强AI具身操作 · 已追踪4个来源

研究人员开发了Guava框架，旨在通过整合高级推理与外部感知、规划和控制模块来增强AI代理的具身操作能力。该框架确定了迭代感知-推理-行动循环、语义动作抽象和多模态观察是有效具身代理的关键组成部分。Guava已证明其能够以极少量的训练数据将复杂的操作技能提炼成一个紧凑的4B开源模型，在模拟和现实世界环境中均取得了与前沿专有模型相当的性能。此外，PhysVLA框架提供了一个即插即用的解决方案，它可以在不重新训练的情况下包装现有的视觉-语…

RESEARCH · CL_84410 · Jun 10 · 14:03

新框架使视觉语言动作模型适应灵巧机器人手

研究人员开发了InDex，一个旨在使视觉语言动作（VLA）模型适应灵巧机器人操作的新框架。该方法解决了将通常在简单夹持器上训练的通用VLA模型应用于复杂、高自由度的手部的问题。InDex采用两阶段学习过程，将现有的抓取输出作为意图代理，从而以最少的数据实现精细的关节控制。

RESEARCH · CL_79104 · Jun 7 · 09:23

GEAR-VLA框架增强机器人操作泛化能力

研究人员开发了GEAR-VLA，一个旨在提高视觉-语言-动作（VLA）模型在机器人操作任务中泛化能力的新框架。该方法通过学习统一的、几何感知的动作表征来解决当前VLA模型的局限性。GEAR-VLA采用粗粒到细粒的学习策略，整合了具身预训练与连续动作专家，并将3D空间骨干网络与VLA表征对齐。该框架还纳入了具身规范化，以实现跨机器人泛化，在多个基准测试中展示了最先进的性能，并在涉及未知物体和不同机器人具身特性的任务中取得了高成功率。

RESEARCH · CL_76937 · Jun 5 · 04:42

ActionMap 通过体素热图改进机器人策略学习

研究人员开发了 ActionMap，这是一种新颖的体素热图动作头，旨在改进视觉-语言-动作 (VLA) 模型中的机器人策略学习。这个新的动作头取代了传统的动作解码器，在动作空间上预测热图，以更好地利用动作的几何邻近性。在模拟和真实世界测试中，ActionMap 与现有方法相比表现出更优越的性能和数据效率，表明动作表示是 VLA 模型有效性的关键因素。

TOOL · CL_78002 · Jun 4 · 00:00

Hugging Face论文：机器人需要更好的数据接口，而不仅仅是更大的模型

Hugging Face的一篇新立场论文认为，要推进机器人智能，需要的不仅仅是扩展现有的视觉-语言-动作（VLA）模型。该论文强调需要专门的接口来处理非结构化行为数据，使机器人能够从人类运动、互联网视频和模拟中学习。它提出了未来机器人学的四个关键组成部分：用于非结构化行为的自动标注接口、用于动作重定向的具身接口、用于3D推理的世界模型接口以及用于推断任务成功的奖励接口。

RESEARCH · CL_70319 · Jun 3 · 10:38

VISTA框架通过验证数据改进机器人训练

研究人员开发了VISTA，一个旨在利用真实机器人数据改进视觉-语言-动作（VLA）模型训练的框架。该框架解决了相机视角失真和人类收集的轨迹在物理上不可行等挑战。VISTA包含一个新的数据集（UMI-VQA），用于处理失真的视觉输入，以及一个验证流程，用于过滤不安全或不可能的机器人动作，从而提高策略性能。

TOOL · CL_68309 · Jun 3 · 04:00

新的S2框架通过证据预算提升VLA模型泛化能力

研究人员开发了一个名为S2（See Less, Specify More，少看多说）的新框架，以增强视觉-语言-动作（VLA）模型的泛化能力。S2通过保留高级指令并用更具体的语言重新标注轨迹来优化执行器的训练。它还强制执行视觉证据预算，训练模型根据任务充分的视觉信息而非无约束的上下文来行动。这种方法显著提高了机器人在实际任务中的成功率，在TX-G2和HSR机器人上将平均子任务成功率从54.2%提高到79.0%。

TOOL · CL_68285 · Jun 3 · 04:00

新的 TRAP 攻击通过对抗性补丁劫持 VLA 模型

研究人员开发了一种名为 TRAP 的新型攻击方法，该方法利用了视觉-语言-动作（VLA）模型的思维链（CoT）推理。该攻击使用诸如桌布之类的对抗性补丁来操纵模型的推理过程并劫持其行为，导致意外行为，例如错误地递送物品。该方法已在各种 VLA 模型上得到有效演示，甚至在现实世界中得到复制，凸显了当前 VLA 系统中存在的严重安全漏洞。