研究人员开发了RhinoVLA,一个用于边缘硬件上实时机器人操作的视觉-语言-动作(Vision-Language-Action)模型。该模型利用了令牌效率高的Qwen3-VL骨干网络和一个连续动作专家(continuous Action Expert)来降低计算负载和延迟。RhinoVLA还引入了一个统一的接口用于跨机器人学习,并针对硬件部署进行了优化,在满足10 Hz实时控制目标的同时,实现了与现有模型相当的下游性能。 AI
影响 可在边缘设备上实现实时机器人操作,可能加速自主系统。
排序理由 该集群包含一份技术报告,详细介绍了新模型及其在特定硬件上的性能。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →