English(EN) A Controlled Study of CLIP-Based Body-Scene Fusion for Emotion Recognition in Context

基于CLIP的模型在情境感知情感识别方面提升有限

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 04:00

研究人员进行了一项关于使用基于CLIP的模型进行情感识别的研究，重点关注身体姿势和场景情境如何有助于理解图像中的情感。该研究采用了一个双流模型，一个流处理人的身体，另一个流使用CLIP分析场景。尽管探索了上下文去偏和稀有类别训练等各种技术，但没有一种技术能显著优于基线双流模型，该模型在EMOTIC测试集上的mAP为34.52%。研究结果表明，虽然CLIP提供了广泛的场景语义，但仍需进一步工作来解决稀有和微妙情感类别中的错误，重点关注标签关系和主体-情境交互。 AI

影响这项研究突显了改进情境感知情感识别的挑战，并表明未来的工作应侧重于更精细的主体-情境交互。

排序理由学术论文，详细介绍了对特定AI应用的受控研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

ResNet-18

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Zubair Abbas, Muhammad Umair, Muqaddas Hameed · 2026-06-25 04:00

A Controlled Study of CLIP-Based Body-Scene Fusion for Emotion Recognition in Context

arXiv:2606.22072v2 Announce Type: replace Abstract: Apparent emotion in natural images is often not visible from the face alone. The face may be small, hidden, or neutral, while posture and scene context carry much of the evidence. This work studies context-aware emotion recognit…

报道来源 [1]

A Controlled Study of CLIP-Based Body-Scene Fusion for Emotion Recognition in Context

相关实体

相关话题