一篇题为“Robusto-2: Benchmarking Humans & VLMs for Autonomous Driving in Lima & New York City”的新研究论文,探讨了视觉语言模型(VLMs)和人类驾驶员在自动驾驶场景中对新地理位置的泛化能力。该研究利用了来自利马和纽约市的行车记录仪录像,向来自这两个城市的人类驾驶员和各种VLMs提出了事实、评分、反事实和推理类别的问题。研究结果表明,虽然人类和VLMs的回答因问题类型而异,但无论是人类还是VLMs,其性能均未因地理位置而显著变化,这可能归因于测试案例的高度分布外性质。 AI
影响 这项研究突显了在不同地理位置的自动驾驶场景中泛化VLMs性能所面临的挑战,表明需要进一步的工作才能实现稳健的实际应用。
排序理由 研究论文,详细介绍了VLMs和人类在自动驾驶场景中表现的新基准。 [lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →