研究人员评估了多模态大语言模型(MLLMs)作为评估视频感知参与度的合成参与者。他们使用感知信息感觉价值(PMSV)框架,将人类评分与Gemini 3 Flash和Qwen 3 Omni模拟的评分进行了比较。研究发现,即使是先进的MLLMs,与人类的反应也只有有限的一致性,表现出平均评分较低和倾向于中心值的偏差。虽然提示策略效果各异,但模型难以复制细微的亚组差异和参与者画像敏感性。 AI
影响 强调了当前MLLMs在捕捉主观人类反应方面的局限性,影响了它们在定性研究中的应用。
排序理由 学术论文评估LLM在特定研究任务上的能力。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →