PulseAugur
实时 11:41:29
English(EN) Vision-Language Models Mistake Head Orientation for Gaze Direction: Nonverbal Conversation Cues

视觉-语言模型将头部朝向误认为注视方向

研究人员发现,视觉-语言模型(VLMs)在准确推断人类注视方向方面存在困难,常常将头部朝向误认为是眼球运动。在一项涉及1360张真实世界图像的研究中,VLMs在识别注视目标方面与人类相比存在显著的性能差距。确定的主要原因是模型依赖头部朝向线索而非实际的眼部外观,这表明存在一种数据驱动的偏见,未来的工作旨在解决这一问题,以实现更有效的人机交互。 AI

影响 凸显了VLM在解读人类非语言线索方面的当前局限性,可能影响人机交互技术。

排序理由 学术论文,详细说明了当前视觉-语言模型的特定局限性。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

视觉-语言模型将头部朝向误认为注视方向

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo ·

    视觉-语言模型将头部方向误认为注视方向:非语言交流线索

    arXiv:2506.05412v3 Announce Type: replace-cross Abstract: Where someone looks is a nonverbal communication cue that children and adults readily use. How well can Vision-Language Models (VLMs) infer gaze targets? To construct evaluation stimuli, we captured 1,360 real-world photos…