来自美团和北京航空航天大学的研究人员推出LIBERO-X,这是一个旨在严格测试视觉-语言-动作(VLA)模型鲁棒性的新基准。与以往侧重平均成功率的基准不同,LIBERO-X采用五级渐进式测试协议,模拟现实世界部署中的挑战,如物体重新定位、场景变化、新物体、视觉干扰和指令重写。实验表明,在LIBERO-X上,随着难度的增加,主流VLA模型的性能显著下降,尤其是在涉及拓扑变化、未见过的物体和语义指令变化的情况下,这凸显了它们在分布变化下泛化能力的不足。 AI
影响 该基准将推动更鲁棒的VLA模型的开发,使其能够应对现实世界的复杂性和分布变化。
排序理由 该集群描述了一篇提出用于评估AI模型的新颖基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →