人类和视觉语言模型在跨城市驾驶方面表现出相似的泛化能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 00:00

一篇题为“Robusto-2: Benchmarking Humans & VLMs for Autonomous Driving in Lima & New York City”的新研究论文，探讨了视觉语言模型（VLMs）和人类驾驶员在自动驾驶场景中对新地理位置的泛化能力。该研究利用了来自利马和纽约市的行车记录仪录像，向来自这两个城市的人类驾驶员和各种VLMs提出了事实、评分、反事实和推理类别的问题。研究结果表明，虽然人类和VLMs的回答因问题类型而异，但无论是人类还是VLMs，其性能均未因地理位置而显著变化，这可能归因于测试案例的高度分布外性质。 AI

影响这项研究突显了在不同地理位置的自动驾驶场景中泛化VLMs性能所面临的挑战，表明需要进一步的工作才能实现稳健的实际应用。

排序理由研究论文，详细介绍了VLMs和人类在自动驾驶场景中表现的新基准。 [lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-18 00:00

Robusto-2：在利马和纽约市为自动驾驶基准测试人类与 VLM

Research examines how self-driving car systems and humans perform on visual question answering tasks across different geographic locations, revealing that both human and AI responses diverge based on question types but show similar performance regardless of location.

报道来源 [1]

Robusto-2：在利马和纽约市为自动驾驶基准测试人类与 VLM

相关实体

相关话题