English(EN) GAE: Unleashing Physical Potential of VLM with Generalizable Action Expert

新的GAE模型增强了视觉语言模型到机器人动作的翻译

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-12 04:00

研究人员开发了一个名为通用动作专家（GAE）的新模型，以改进视觉语言模型（VLMs）将高级计划转化为精确机器人动作的方式。GAE作为一个与任务无关的组件，将VLM预测的稀疏几何计划转换为连续的动作轨迹。这种方法将推理与动作生成分离，增强了泛化能力。GAE在一个大型机器人轨迹数据集上进行了预训练，并利用动作预训练、点云微调（APPF）方案来提高效率。 AI

影响这项研究可能带来更强大的机器人，它们能够更好地理解和执行复杂的指令。

排序理由这是一篇详细介绍机器人和计算机视觉新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Mingyu Liu, Zheng Huang, Xiaoyi Lin, Muzhi Zhu, Canyu Zhao, Yating Wang, Haoyi Zhu, Hao Chen, Chunhua Shen · 2026-06-12 04:00

GAE: Unleashing Physical Potential of VLM with Generalizable Action Expert

arXiv:2510.03896v2 Announce Type: replace Abstract: Vision-language models demonstrate strong reasoning and planning abilities, yet grounding these predictions into precise robot actions remains a central challenge. Existing Vision-Language-Action methods typically entangle reaso…

报道来源 [1]

GAE: Unleashing Physical Potential of VLM with Generalizable Action Expert

相关实体

相关话题