English(EN) Multimodal Large Language Models as Synthetic Participants in Video-Based Studies: An Evaluation

大语言模型在模仿人类视频参与度评分方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员评估了多模态大语言模型（MLLMs）作为评估视频感知参与度的合成参与者。他们使用感知信息感觉价值（PMSV）框架，将人类评分与Gemini 3 Flash和Qwen 3 Omni模拟的评分进行了比较。研究发现，即使是先进的MLLMs，与人类的反应也只有有限的一致性，表现出平均评分较低和倾向于中心值的偏差。虽然提示策略效果各异，但模型难以复制细微的亚组差异和参与者画像敏感性。 AI

影响强调了当前MLLMs在捕捉主观人类反应方面的局限性，影响了它们在定性研究中的应用。

排序理由学术论文评估LLM在特定研究任务上的能力。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Prabal Shrestha, Bohan Jiang, Haoning Xue, Huan Liu, Xinyi Zhou · 2026-06-09 04:00

多模态大语言模型作为视频研究中的合成参与者：一项评估

arXiv:2606.07541v1 Announce Type: cross Abstract: Multimodal large language models (MLLMs) have shown strong performance on objective tasks such as video understanding and reasoning. However, it remains unclear whether they can approximate subjective human responses, which depend…

报道来源 [1]

多模态大语言模型作为视频研究中的合成参与者：一项评估

相关实体

相关话题