研究人员开发了一种新颖的双分支注视预测框架,以改进自动驾驶中可解释的驾驶员注意力预测。该框架通过构建一个名为 G-W3DA 的新物体级驾驶员注意力数据集来解决现有数据集的局限性,该数据集使用多模态大语言模型和 Segment Anything Model 3 (SAM3) 将注视解耦为物体级掩码。所提出的 DualGaze-VLM 架构利用这些数据来实现意图驱动的空间锚定,在空间对齐指标上优于当前最先进的模型,并生成被人类评估者认为是真实的注意力热图。 AI
影响 通过提供更精确的物体级注意力预测,增强了自动驾驶系统的可解释性。
排序理由 这是一篇介绍用于注视预测的新数据集和模型架构的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →