研究人员开发了GEAR-VLA,一个旨在提高视觉-语言-动作(VLA)模型在机器人操作任务中泛化能力的新框架。该方法通过学习统一的、几何感知的动作表征来解决当前VLA模型的局限性。GEAR-VLA采用粗粒到细粒的学习策略,整合了具身预训练与连续动作专家,并将3D空间骨干网络与VLA表征对齐。该框架还纳入了具身规范化,以实现跨机器人泛化,在多个基准测试中展示了最先进的性能,并在涉及未知物体和不同机器人具身特性的任务中取得了高成功率。 AI
影响 通过提高VLA模型处理未知物体和不同具身特性的能力,增强了机器人操作任务的泛化能力。
排序理由 该集群包含一篇详细介绍机器人操作新框架的学术论文。
- AgileX
- GEAR-VLA
- LDT-01
- LIBERO
- LIBERO-Plus
- Robotic manipulation
- RoboTwin 2.0
- Vision-Language-Action (VLA) models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →