研究人员推出了 RoboBenchMart,这是一个开源的模拟基准,旨在评估通用视觉语言模型 (VLA) 在零售环境中的性能。该基准模拟了涉及各种杂货商品的复杂操作任务,带来了诸如密集混乱和不同空间配置等挑战。对最先进模型的初步评估显示,它们在常见的零售任务中遇到了显著的困难,表明当前的 VLA 在不同领域尚未完全泛化。RoboBenchMart 套件包括用于程序化商店生成、轨迹生成、评估和基线模型的工具,以促进进一步的研究。 AI
影响 突出了通用 VLA 在复杂、现实场景中的当前局限性,为零售自动化未来的研究指明方向。
排序理由 该集群包含一篇介绍用于评估 AI 模型的新基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →