X Square Robot 发布了 Wall-OSS-0.5,一个拥有 40 亿参数的视觉-语言-动作 (VLA) 模型。该模型构建在 30 亿参数的视觉-语言模型骨干之上,并使用 Transformer 混合架构整合了动作专家。值得注意的是,该研究在微调前对模型在真实机器人上的性能进行了评估,展示了强大的零样本能力以及在任务特定适应后的显著改进。 AI
影响 此次发布为视觉-语言-动作任务提供了开源代码和模型,有望加速具身人工智能和机器人领域的研究与开发。
排序理由 这是一个开源模型的发布,附带研究论文和代码,详细介绍了新颖的方法和评估。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →