研究人员开发了一种使用自我中心视觉和视觉语言模型(VLMs)预测行人过马路意图的新方法。通过将任务构建为视觉问答,他们对 VLMs 进行了微调,使其性能显著优于现有的基于 Transformer 的模型。包含的眼动和自我运动等上下文线索进一步提高了预测准确性,为这一安全关键应用树立了新的最先进水平。 AI
影响 为行人意图预测树立了新的最先进水平,有可能提高自动驾驶安全系统。
排序理由 该集群包含一篇详细介绍新研究方法和基准测试结果的学术论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →