PulseAugur
实时 16:16:40
English(EN) Wall-OSS-0.5: 4B VLA with open training code and zero-shot real-robot evaluation[D]

X Square Robot 发布具有开放代码和真实机器人测试的 4B VLA 模型

X Square Robot 发布了 Wall-OSS-0.5,一个拥有 40 亿参数的视觉-语言-动作 (VLA) 模型。该模型构建在 30 亿参数的视觉-语言模型骨干之上,并使用 Transformer 混合架构整合了动作专家。值得注意的是,该研究在微调前对模型在真实机器人上的性能进行了评估,展示了强大的零样本能力以及在任务特定适应后的显著改进。 AI

影响 此次发布为视觉-语言-动作任务提供了开源代码和模型,有望加速具身人工智能和机器人领域的研究与开发。

排序理由 这是一个开源模型的发布,附带研究论文和代码,详细介绍了新颖的方法和评估。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/MachineLearning TIER_1 English(EN) · /u/Tall-Peak2618 ·

    Wall-OSS-0.5:具有开放训练代码和零样本真实机器人评估的 4B VLA[D]

    <!-- SC_OFF --><div class="md"><p>Wall-OSS-0.5 is a new 4B VLA release from X Square Robot, built on a 3B VLM backbone with action experts in a Mixture-of-Transformers layout. What caught my eye is that the report evaluates the pretrained checkpoint on real robots before task-spe…