English(EN) Vision-Language Models Mistake Head Orientation for Gaze Direction: Nonverbal Conversation Cues

视觉-语言模型将头部朝向误认为注视方向

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-01 04:00

研究人员发现，视觉-语言模型（VLMs）在准确推断人类注视方向方面存在困难，常常将头部朝向误认为是眼球运动。在一项涉及1360张真实世界图像的研究中，VLMs在识别注视目标方面与人类相比存在显著的性能差距。确定的主要原因是模型依赖头部朝向线索而非实际的眼部外观，这表明存在一种数据驱动的偏见，未来的工作旨在解决这一问题，以实现更有效的人机交互。 AI

影响凸显了VLM在解读人类非语言线索方面的当前局限性，可能影响人机交互技术。

排序理由学术论文，详细说明了当前视觉-语言模型的特定局限性。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo · 2026-05-01 04:00

视觉-语言模型将头部方向误认为注视方向：非语言交流线索

arXiv:2506.05412v3 Announce Type: replace-cross Abstract: Where someone looks is a nonverbal communication cue that children and adults readily use. How well can Vision-Language Models (VLMs) infer gaze targets? To construct evaluation stimuli, we captured 1,360 real-world photos…

报道来源 [1]

视觉-语言模型将头部方向误认为注视方向：非语言交流线索

相关实体

相关话题