Vision-Language-Action models
PulseAugur coverage of Vision-Language-Action models — every cluster mentioning Vision-Language-Action models across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
VLANeXt模型为构建更强大的视觉-语言-动作模型提供配方
研究人员开发了VLANeXt,一种新的视觉-语言-动作(VLA)模型,通过系统地分析和优化设计选择,改进了现有架构。通过统一的框架和评估设置,他们确定了12个关键发现,这些发现构成了构建强大VLA模型的实用配方。VLANeXt在LIBERO和LIBERO-plus等基准测试中表现出色,并在实际应用中显示出有效性。该团队还发布了一个全面的代码库,以促进VLA领域的复现和进一步发展。
-
Pelican-Unified 1.0 模型统一了具身人工智能能力
研究人员推出了 Pelican-Unified 1.0,这是一种新颖的具身智能模型,将理解、推理、想象和行动整合到一个单一系统中。这种统一的方法使用单一的视觉-语言模型来处理各种输入并生成未来状态和动作,同时优化所有能力。早期实验表明,Pelican-Unified 1.0 在多个基准测试中取得了最先进的性能,证明了统一并不会损害专业优势。
-
RLDX-1 机器人策略通过新的 Transformer 架构增强灵巧操作
研究人员推出 RLDX-1,这是一种用于灵巧操作的新型机器人策略,通过多流动作 Transformer 架构整合异构模态。该方法旨在通过整合运动感知、基于记忆的决策和物理传感来克服当前视觉-语言-动作模型的局限性。RLDX-1 在复杂现实世界任务和人形机器人控制方面,表现优于 $\pi_{0.5}$ 和 GR00T N1.6 等现有模型。
-
RoboECC框架优化VLA模型在边缘和云端的部署
研究人员开发了RoboECC,一个通过在边缘设备和云之间分配计算来实现视觉-语言-动作(VLA)模型部署的新框架。该方法解决了VLA模型的高推理成本问题,VLA模型在具身智能应用中很常见。RoboECC识别模型执行的最佳分割点,并动态适应网络波动,以最小的开销实现了高达3.28倍的速度提升。