实体 DualGaze-VLM

DualGaze-VLM

PulseAugur coverage of DualGaze-VLM — every cluster mentioning DualGaze-VLM across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_08601 · Apr 29 · 04:00

从场景到物体：文本引导的双注视预测

研究人员开发了一种新颖的双分支注视预测框架，以改进自动驾驶中可解释的驾驶员注意力预测。该框架通过构建一个名为 G-W3DA 的新物体级驾驶员注意力数据集来解决现有数据集的局限性，该数据集使用多模态大语言模型和 Segment Anything Model 3 (SAM3) 将注视解耦为物体级掩码。所提出的 DualGaze-VLM 架构利用这些数据来实现意图驱动的空间锚定，在空间对齐指标上优于当前最先进的模型，并生成被人类评估者认为是…