English(EN) From Scene to Object: Text-Guided Dual-Gaze Prediction

从场景到物体：文本引导的双注视预测

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 04:00

研究人员开发了一种新颖的双分支注视预测框架，以改进自动驾驶中可解释的驾驶员注意力预测。该框架通过构建一个名为 G-W3DA 的新物体级驾驶员注意力数据集来解决现有数据集的局限性，该数据集使用多模态大语言模型和 Segment Anything Model 3 (SAM3) 将注视解耦为物体级掩码。所提出的 DualGaze-VLM 架构利用这些数据来实现意图驱动的空间锚定，在空间对齐指标上优于当前最先进的模型，并生成被人类评估者认为是真实的注意力热图。 AI

影响通过提供更精确的物体级注意力预测，增强了自动驾驶系统的可解释性。

排序理由这是一篇介绍用于注视预测的新数据集和模型架构的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Zehong Ke, Yanbo Jiang, Jinhao Li, Zhiyuan Liu, Yiqian Tu, Qingwen Meng, Heye Huang, Jianqiang Wang · 2026-04-29 04:00

From Scene to Object: Text-Guided Dual-Gaze Prediction

arXiv:2604.20191v2 Announce Type: replace Abstract: Interpretable driver attention prediction is crucial for human-like autonomous driving. However, existing datasets provide only scene-level global gaze rather than fine-grained object-level annotations, inherently failing to sup…

报道来源 [1]

From Scene to Object: Text-Guided Dual-Gaze Prediction

相关实体

相关话题