研究人员推出了PIVOTSBench,这是一个旨在评估多模态大语言模型(MLLM)理解和推理人际关系能力的新基准。该基准源自Social-IQ 2.0和YouTube数据,包含评估模型预测关系维度和识别关键视觉线索能力的任务。评估涵盖了专有和开源的MLLM,研究探讨了视觉模态和对话上下文的影响。 AI
影响 该基准有望推动具备改进的社交推理能力MLLM的发展,这对于更自然的人机交互至关重要。
排序理由 该集群描述了一篇介绍AI模型评估基准的新学术论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →