研究人员开发了 DeepGaze3.5-VL,这是一种新颖的模型,它将注视点路径预测构建为使用自回归令牌预测的离散序列建模任务。通过将视觉坐标映射到文本词汇表,该模型利用预训练的视觉-语言模型来捕捉各种变化因素,包括个性化偏差和任务特定目标。这种方法显著提高了预测性能,在 MIT1003 数据集上取得了新的最先进水平,比其前身 DeepGaze III 提高了 46%。该生成框架还为计算干预和人类视觉注意力的计算机模拟提供了强大的工具。 AI
影响 在模拟人类视觉注意力方面确立了新的最先进水平,在界面设计和认知状态推断方面具有潜在应用。
排序理由 该集群描述了一篇详细介绍新模型及其在基准数据集上性能的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- DeepGaze3.5-VL
- DeepGaze III
- Gotit.pub
- Hugging Face
- MIT1003
- ScienceCast
- vision-language model
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →