PulseAugur
实时 08:05:07
English(EN) Quantifying the Affective Gap: A Zero-Shot Evaluation of LLMs on Fine-Grained Emotion Taxonomies

大型语言模型在零样本测试中难以识别细粒度情感

一项新的研究论文评估了三种领先的大型语言模型在零样本情感识别方面的能力:Claude Sonnet 4.6ChatGPT (GPT-5.4) 和 Gemini 2.5-Flash。研究发现,Gemini 的准确率最高,达到 39.9%,GPT-5.4 和 Claude 紧随其后。然而,所有模型在处理爱、困惑和羞耻等具体情感时都遇到了困难,McNemar 检验表明它们在性能上没有统计学上的显著差异。这项研究强调了这些前沿人工智能系统在没有特定训练示例的情况下准确分类细粒度情感的当前局限性。 AI

影响 强调了大型语言模型在零样本细粒度情感分类方面的当前局限性,为未来模型开发指明了方向。

排序理由 该集群包含一篇评估大型语言模型在特定任务上能力的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

大型语言模型在零样本测试中难以识别细粒度情感

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Lawrence Obiuwevwi, Krzysztof J. Rechowicz, Jessica M. Johnson, Vikas Ashok, Sachin Shetty, Sampath Jayarathna ·

    Quantifying the Affective Gap: A Zero-Shot Evaluation of LLMs on Fine-Grained Emotion Taxonomies

    arXiv:2607.00968v1 Announce Type: new Abstract: Emotion recognition in natural language is a foundational challenge in affective computing, with critical implications for human-computer interaction, mental health support, and conversational AI. This paper presents a rigorous, uni…

  2. arXiv cs.CL TIER_1 English(EN) · Sampath Jayarathna ·

    量化情感差距:LLMs 在细粒度情感分类上的零样本评估

    Emotion recognition in natural language is a foundational challenge in affective computing, with critical implications for human-computer interaction, mental health support, and conversational AI. This paper presents a rigorous, unified zero-shot evaluation of three leading comme…