English(EN) DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

新的 VLA 模型 LaST-R1 和 DIAL 通过高级推理增强机器人操作

作者 PulseAugur 编辑部 · [3 个来源] · 2026-04-29 04:00

两篇新的研究论文介绍了用于机器人操作的先进视觉-语言-动作 (VLA) 模型。LaST-R1 将潜在的思维链推理与强化学习相结合，以提高适应性和泛化能力，在 LIBERO 基准测试中取得了 99.8% 的成功率。DIAL 通过潜在世界模型将高级意图与低级动作执行解耦，使其能够以少 10 倍的演示进行学习，并泛化到现实世界任务。 AI

影响这些 VLA 模型展示了改进的推理和学习效率，有可能加速更强大、更适应性强的机器人的开发。

排序理由 arXiv 上发表的两篇学术论文提出了用于机器人技术的新型视觉-语言-动作模型方法。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.CV TIER_1 English(EN) · Hao Chen, Jiaming Liu, Zhonghao Yan, Nuowei Han, Renrui Zhang, Chenyang Gu, Jialin Gao, Ziyu Guo, Siyuan Qian, Yinxi Wang, Peng Jia, Chi-Wing Fu, Shanghang Zhang, Pheng-Ann Heng · 2026-05-01 04:00

LaST-R1: 为VLA模型通过自适应物理潜在推理增强动作

arXiv:2604.28192v1 Announce Type: cross Abstract: Vision-Language-Action (VLA) models have increasingly incorporated reasoning mechanisms for complex robotic manipulation. However, existing approaches share a critical limitation: whether employing explicit linguistic reasoning th…
arXiv cs.CV TIER_1 English(EN) · Pheng-Ann Heng · 2026-04-30 17:59

LaST-R1: 为VLA模型通过自适应物理潜在推理增强动作

Vision-Language-Action (VLA) models have increasingly incorporated reasoning mechanisms for complex robotic manipulation. However, existing approaches share a critical limitation: whether employing explicit linguistic reasoning that suffers from latency and discretization, or uti…
arXiv cs.CV TIER_1 English(EN) · Yi Chen, Yuying Ge, Hui Zhou, Mingyu Ding, Yixiao Ge, Xihui Liu · 2026-04-29 04:00

DIAL：通过潜在世界模型解耦意图与动作，实现端到端VLA

arXiv:2603.29844v2 Announce Type: replace-cross Abstract: The development of Vision-Language-Action (VLA) models has been significantly accelerated by pre-trained Vision-Language Models (VLMs). However, most existing end-to-end VLAs treat the VLM primarily as a multimodal encoder…

报道来源 [3]

LaST-R1: 为VLA模型通过自适应物理潜在推理增强动作

LaST-R1: 为VLA模型通过自适应物理潜在推理增强动作

DIAL：通过潜在世界模型解耦意图与动作，实现端到端VLA

相关实体

相关话题