一项新的基准研究评估了五种视觉语言模型(VLMs)在零样本设置下识别课堂参与度的能力。包括GPT-4o和LLaVA-1.5-7B在内的模型在识别单个学生参与度方面表现不佳,呈现出随机表现和类别坍塌。然而,场景级分类显示出更大的潜力,CLIP和GPT-4o在提供特定评分标准提示时达到了中等准确率。研究还强调了实际部署的挑战,例如GPT-4o的安全过滤器拒绝了大量涉及学生面部的请求。 AI
影响 凸显了当前VLMs在教育应用中的关键局限性,表明需要提高鲁棒性和进行仔细的提示工程。
排序理由 该集群包含一篇详细介绍现有模型基准研究的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →