PulseAugur
实时 12:53:39
English(EN) DeepGaze3.5-VL: Modeling Scanpaths via Autoregressive Token Prediction

DeepGaze3.5-VL 通过自回归令牌预测模拟人类视觉注视点路径

研究人员开发了 DeepGaze3.5-VL,这是一种新颖的模型,它将注视点路径预测构建为使用自回归令牌预测的离散序列建模任务。通过将视觉坐标映射到文本词汇表,该模型利用预训练的视觉-语言模型来捕捉各种变化因素,包括个性化偏差和任务特定目标。这种方法显著提高了预测性能,在 MIT1003 数据集上取得了新的最先进水平,比其前身 DeepGaze III 提高了 46%。该生成框架还为计算干预和人类视觉注意力的计算机模拟提供了强大的工具。 AI

影响 在模拟人类视觉注意力方面确立了新的最先进水平,在界面设计和认知状态推断方面具有潜在应用。

排序理由 该集群描述了一篇详细介绍新模型及其在基准数据集上性能的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

DeepGaze3.5-VL 通过自回归令牌预测模拟人类视觉注视点路径

报道来源 [2]

  1. arXiv cs.CV TIER_1 English(EN) · Susmit Agrawal, Matthias Bethge, Matthias K\"ummerer ·

    DeepGaze3.5-VL: Modeling Scanpaths via Autoregressive Token Prediction

    arXiv:2607.02083v1 Announce Type: new Abstract: Understanding human visual attention on a scene over time has applications in domains such as interface design and inferring cognitive states. Modeling visual scanpaths has historically relied on specialized architectures with hand-…

  2. arXiv cs.CV TIER_1 English(EN) · Matthias Kümmerer ·

    DeepGaze3.5-VL: Modeling Scanpaths via Autoregressive Token Prediction

    Understanding human visual attention on a scene over time has applications in domains such as interface design and inferring cognitive states. Modeling visual scanpaths has historically relied on specialized architectures with hand-crafted priors. While these architectures can mo…