Vision-Language Action Models

板载VLM赋能机器人多智能体控制系统

研究人员开发了一种用于机器人控制的多智能体系统（MAS）架构，该架构利用板载视觉语言模型（VLM）来克服可解释性、泛化性和计算需求的限制。该系统在紧凑型硬件上部署专用智能体，无需外部云计算。在模拟的工业仓库中进行了测试，该MAS成功地通过微调的VLM管理了安全检查、维护和响应人类请求等任务。引入了一种新颖的编排智能体“Megamind”，以解决小型模型在长时域规划中的上下文保留问题，证明了经济高效的板载解决方案在现实世界机器人应用中的可行性。

RESEARCH · CL_130604 · Jul 4 · 00:00

Hugging Face论文详述用于机器人技术的VLA模型改进

Hugging Face的两篇新研究论文探讨了视觉-语言-动作（VLA）模型的进展。第一篇论文介绍了LingBot-VLA 2.0，通过扩展其训练数据以包含多样化的机器人配置和人类视频，提高了泛化能力，并增强了其动作空间以涵盖复杂操作的全身运动。第二篇论文提出了SVA，一个通过蒙特卡洛树搜索和Q值模型将动作生成与后果评估解耦，从而改进冻结VLA模型的框架，证明该方法可以以更低的延迟超越更大的模型。

TOOL · CL_118174 · Jun 30 · 04:00

OpenFrontier 导航框架无需特定任务训练

研究人员推出 OpenFrontier，一个专为在复杂、开放世界环境中运行的机器人设计的创新导航框架。该系统通过利用视觉前沿作为语义锚点，绕过了广泛的特定任务训练或微调的需要。OpenFrontier 集成了多种视觉语言先验模型，能够在没有密集 3D 语义映射或专业策略训练的情况下实现高效导航。该框架已展示出强大的零样本性能，并已成功部署在真实的移动机器人上。

TOOL · CL_118165 · Jun 30 · 04:00

新型VLM代理实现文本引导的6D物体姿态重排

研究人员开发了一种新颖的方法，利用闭环视觉语言模型（VLM）代理实现文本引导的6D物体姿态重排。该方法通过使VLM能够推断出与文本一致的6D目标姿态，解决了VLM在3D理解方面的局限性。该系统会迭代地观察场景，评估指令的一致性，提出姿态更新，并渲染更新后的场景，有效地充当代理。关键技术包括多视角推理、以物体为中心的坐标系可视化和单轴旋转预测，这些技术在无需额外微调的情况下显著提高了性能，并增强了机器人操作能力。

TOOL · CL_117746 · Jun 30 · 04:00

WoVR 框架使用受控世界模型改进 VLA 模型强化学习

研究人员开发了 WoVR，一个新颖的框架，旨在通过使用世界模型作为模拟器来增强视觉-语言-动作 (VLA) 模型的强化学习。这种方法解决了通常阻碍策略优化的想象式 rollout 中出现的幻觉和错误累积的挑战。WoVR 通过动作条件视频世界模型提高了 rollout 的稳定性，通过关键帧初始化的 rollout 减少了有效错误深度，并通过世界模型-策略协同演进确保了策略-模拟器的一致性。实验表明，WoVR 促进了长时程想象式 roll…

RESEARCH · CL_106805 · Jun 17 · 00:00

新研究增强了用于机器人和视觉推理的VLA模型

近期研究探索了增强用于机器人操作和通用视觉推理的视觉-语言-动作（VLA）模型。研究通过域随机化和照片级真实感渲染来研究模拟到现实的泛化能力，并提出诸如 Faithful Warm-Start 等方法，通过在强化学习前确保视觉保真度来提高VLM推理的稳定性。其他工作引入了置信度驱动的测试时强化学习，无需外部奖励即可实现自我改进，以及状态感知分词器，以更好地从离散代码中解码动作。此外，研究还检查了VLA模型中的架构冗余，发现语言骨干对于…

RESEARCH · CL_104007 · Jun 16 · 15:19

新基准和方法改进了 AI 代理的不确定性量化

研究人员开发了新的方法来量化与图形用户界面 (GUI) 交互的 AI 代理以及机器人技术中使用的视觉-语言-动作模型 (VLA) 的不确定性。第一项研究“Argus”在各种代理和数据集上对 27 种方法进行了基准测试，发现不确定性排名在同一模型类别内是稳定的，但在不同模型和界面之间会下降。第二项研究为基于流匹配的 VLA 引入了速度场不一致性 (VFD)，证明了其在故障检测方面的有效性，并实现了一个名为 SAVE 的框架，该框架能够以…

RESEARCH · CL_93113 · Jun 15 · 06:26

新的AI模型应对自动驾驶的远期规划问题

研究人员正在开发先进的自动驾驶AI模型，重点是改进轨迹规划和远期决策。包括ParkingTransformer、TerraTransfer、AlignDrive、Metis和GraphWorld在内的几个新框架，利用了LLM、自我博弈和基于图的世界建模等技术，以增强复杂驾驶场景下的泛化性、效率和安全性。这些方法旨在通过更好地整合感知、预测和规划，以及从多样化数据中学习而不完全依赖专家演示，来克服现有方法的局限性。

RESEARCH · CL_93049 · Jun 14 · 12:06

新的机器人策略模型增强了动作生成和效率

研究人员开发了新的机器人策略学习方法，提高了动作生成效率和准确性。LeaP（一种可学习的源先验）通过对本体感觉进行条件化来优化动作生成的起点，从而在操作任务上取得了显著的性能提升。LaWAM引入了潜在世界动作模型，该模型预测紧凑的潜在视觉子目标而非完整的视频帧，从而在保持高成功率的同时降低了计算延迟。几何动作模型（GAM）将几何基础模型重新用于语言条件操作，直接整合3D几何以实现更鲁棒、更高效的控制。

RESEARCH · CL_86629 · Jun 11 · 13:43

自回归策略在VLA模型中实现实时执行

一篇新的研究论文介绍了一种在视觉-语言-动作（VLA）模型的自回归策略中实现实时执行的方法。该方法通过调整标记化范围和采用约束解码来保证严格的延迟界限。这使得多轨迹解码成为可能，从而提高了任务完成速度，并在模拟和现实世界环境中均优于等效的流匹配策略。

RESEARCH · CL_82214 · Jun 9 · 09:13

机器人通过关键点跟踪从人类视频中学习操作

研究人员开发了一个名为 Dexterous Point Policy 的新框架，可以直接从人类视频中学习机器人操作技能，无需昂贵的机器人特定演示。该系统利用统一的物体和手部三维关键点表示来弥合人类和机器人动作之间的差距。该方法在现实世界任务中取得了 75.0% 的成功率，显著优于仅取得 1.0% 成功率的最先进基线。

TOOL · CL_80159 · Jun 9 · 04:00

新的“状态后门”攻击针对具身AI模型

研究人员开发了一种针对视觉-语言-动作（VLA）模型的新型后门攻击，VLA模型对于机器人等具身AI应用至关重要。与依赖可见视觉触发器的先前方法不同，这种新颖的“状态后门”利用机器人手臂的初始状态作为触发器。研究人员采用了一种偏好引导的遗传算法来寻找最小但有效的基于状态的触发器，在不影响正常任务性能的情况下实现了超过90%的攻击成功率。

RESEARCH · CL_73374 · Jun 5 · 10:47

CVPR 2026：计算机视觉与机器人学融合，中国AI占据主导地位

在丹佛举行的CVPR 2026会议标志着计算机视觉与机器人学的显著融合，重点关注多模态基础模型和具身AI。中国高校和企业展示了实质性进展，中国机构在论文录用方面占据主导地位，腾讯、阿里巴巴和MiniMax等行业参与者获得了顶级赞助商级别。关键研讨会讨论了在自动驾驶和机器人学中部署视觉-语言-动作模型，特斯拉和小鹏等公司积极参与。中国团队在实际挑战中也表现出色，小米在现实世界机器人竞赛中获得了多个冠军。

RESEARCH · CL_65730 · Jun 2 · 04:00

新的AI防御和攻击针对视觉-语言模型

研究人员开发了新的方法来防御和利用先进AI模型中的后门攻击。一种名为BYORn的方法旨在通过识别和替换微调过程中生成的语义上不合理的响应来提高大型视觉-语言模型的鲁棒性，从而保持干净的任务性能。与此同时，一种名为SILENTDRIFT的新攻击针对机器人领域使用的视觉-语言-动作模型，利用动作分块来创建视觉上与合法演示无法区分的隐蔽后门攻击。

TOOL · CL_62808 · Jun 1 · 04:00

机器人VLA模型通过地平线混合策略获得远见

研究人员开发了一种“地平线混合”（MoH）策略，以提高机器人视觉-语言-动作（VLA）模型的性能。该方法解决了固定动作分块长度固有的长期远见与细粒度精度之间的权衡问题。通过并行处理具有不同地平线的动作片段并融合它们的输出来实现这一点，MoH提高了复杂任务的性能和泛化能力。该方法即插即用，开销极小，并支持自适应推理以获得更高的吞吐量。

TOOL · CL_64769 · Jun 1 · 00:00

新基准揭示视觉-语言-动作模型在语义基础方面存在困难

研究人员推出了 RoboSemanticBench (RSB)，这是一个旨在评估视觉-语言-动作 (VLA) 模型语义基础能力的新基准。该基准测试这些模型是否能根据复杂指令准确选择和操作物理目标，超越简单的模仿学习。初步测试显示存在显著差距，目前的 VLA 模型常常无法选择语义上正确的答案块，表现达到或低于随机猜测水平。

RESEARCH · CL_62767 · May 29 · 09:18

新研究探讨VLM对视觉说服和影响的敏感性

研究人员正在开发新的框架来评估视觉-语言模型（VLM）对多模态说服和视觉影响的敏感性。一项研究引入了MMPersuade，使用图像和心理策略来测试代理之间的说服，发现多模态输入比单独的文本更有效，并且敏感性因领域和模型架构而异。另一篇论文提出了一种系统地扰动图像并分析VLM视觉偏好如何变化的方法，旨在揭示漏洞并改进审计。第三项研究侧重于自动驾驶中的视觉-语言-动作（VLA）模型，使用扰动框架来理解视觉信息如何支撑驾驶行为并开发更安全的系统。

RESEARCH · CL_56517 · May 27 · 07:38

新的VLA-Hijack攻击利用了AI模型的视觉自我定位能力

研究人员开发了VLA-Hijack，一个新颖的对抗性框架，旨在利用视觉-语言-动作（VLA）模型的漏洞。该方法通过创建“幻影具身”，利用机器人手臂的视觉自我定位能力来破坏其运动规划能力。VLA-Hijack在白盒场景中表现出更高的效率，并在黑盒设置中跨不同模型架构和领域展现出更优越的可迁移性。

TOOL · CL_44766 · May 22 · 04:00

VLANeXt模型为构建更强大的视觉-语言-动作模型提供配方

研究人员开发了VLANeXt，一种新的视觉-语言-动作（VLA）模型，通过系统地分析和优化设计选择，改进了现有架构。通过统一的框架和评估设置，他们确定了12个关键发现，这些发现构成了构建强大VLA模型的实用配方。VLANeXt在LIBERO和LIBERO-plus等基准测试中表现出色，并在实际应用中显示出有效性。该团队还发布了一个全面的代码库，以促进VLA领域的复现和进一步发展。

RESEARCH · CL_29277 · May 12 · 13:10

Pelican-Unified 1.0 模型统一了具身人工智能能力

研究人员推出了 Pelican-Unified 1.0，这是一种新颖的具身智能模型，将理解、推理、想象和行动整合到一个单一系统中。这种统一的方法使用单一的视觉-语言模型来处理各种输入并生成未来状态和动作，同时优化所有能力。早期实验表明，Pelican-Unified 1.0 在多个基准测试中取得了最先进的性能，证明了统一并不会损害专业优势。