PulseAugur
实时 21:51:49
English(EN) From Scene to Object: Text-Guided Dual-Gaze Prediction

从场景到物体:文本引导的双注视预测

研究人员开发了一种新颖的双分支注视预测框架,以改进自动驾驶中可解释的驾驶员注意力预测。该框架通过构建一个名为 G-W3DA 的新物体级驾驶员注意力数据集来解决现有数据集的局限性,该数据集使用多模态大语言模型和 Segment Anything Model 3 (SAM3) 将注视解耦为物体级掩码。所提出的 DualGaze-VLM 架构利用这些数据来实现意图驱动的空间锚定,在空间对齐指标上优于当前最先进的模型,并生成被人类评估者认为是真实的注意力热图。 AI

影响 通过提供更精确的物体级注意力预测,增强了自动驾驶系统的可解释性。

排序理由 这是一篇介绍用于注视预测的新数据集和模型架构的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

从场景到物体:文本引导的双注视预测

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Zehong Ke, Yanbo Jiang, Jinhao Li, Zhiyuan Liu, Yiqian Tu, Qingwen Meng, Heye Huang, Jianqiang Wang ·

    From Scene to Object: Text-Guided Dual-Gaze Prediction

    arXiv:2604.20191v2 Announce Type: replace Abstract: Interpretable driver attention prediction is crucial for human-like autonomous driving. However, existing datasets provide only scene-level global gaze rather than fine-grained object-level annotations, inherently failing to sup…