研究人员发现,视觉-语言模型(VLMs)在准确推断人类注视方向方面存在困难,常常将头部朝向误认为是眼球运动。在一项涉及1360张真实世界图像的研究中,VLMs在识别注视目标方面与人类相比存在显著的性能差距。确定的主要原因是模型依赖头部朝向线索而非实际的眼部外观,这表明存在一种数据驱动的偏见,未来的工作旨在解决这一问题,以实现更有效的人机交互。 AI
影响 凸显了VLM在解读人类非语言线索方面的当前局限性,可能影响人机交互技术。
排序理由 学术论文,详细说明了当前视觉-语言模型的特定局限性。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →