一项新的研究论文评估了三种领先的大型语言模型在零样本情感识别方面的能力:Claude Sonnet 4.6、ChatGPT (GPT-5.4) 和 Gemini 2.5-Flash。研究发现,Gemini 的准确率最高,达到 39.9%,GPT-5.4 和 Claude 紧随其后。然而,所有模型在处理爱、困惑和羞耻等具体情感时都遇到了困难,McNemar 检验表明它们在性能上没有统计学上的显著差异。这项研究强调了这些前沿人工智能系统在没有特定训练示例的情况下准确分类细粒度情感的当前局限性。 AI
影响 强调了大型语言模型在零样本细粒度情感分类方面的当前局限性,为未来模型开发指明了方向。
排序理由 该集群包含一篇评估大型语言模型在特定任务上能力的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
- April 2026
- boltuix/emotions
- ChatGPT
- Claude
- Claude Sonnet 4.6
- Gemini
- Gemini 2.5-Flash
- GPT-5.4
- McNemar tests
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →