研究人员开发了新的方法来评估和改进视觉语言模型(VLMs)对人类注视的理解。一项研究引入了EyeVLM,一个用于对VLMs进行注视跟随和社会注视预测基准测试的框架,发现当前模型缺乏精确的理解。另一篇论文提出了一种新颖的训练机制,使用局部LoRA和视锥外惩罚来增强视觉基础模型在注视跟随任务中的注视推理能力,取得了最先进的结果。 AI
影响 新的基准测试和训练技术可能带来更复杂的AI系统,能够理解人类的注意力和社会线索。
排序理由 该集群包含两篇学术论文,详细介绍了用于评估和改进视觉语言模型对人类注视理解的新基准测试和方法。
在 Hugging Face Daily Papers 阅读 →
- EyeVLM
- Social gaze prediction
- Vision-Language Models
- GazeFollow
- Gaze reasoning
- vision foundation models
- Hengfei Wang
AI 生成摘要 · Google Gemini · 来自 5 个来源。 我们如何撰写摘要 →