English(EN) AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models

AIPsy-Affect: 一种无关键词的临床刺激库，用于语言模型中情感的机制可解释性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员推出了一种新的480个条目的刺激库AIPsy-Affect，旨在提高语言模型中情感的机制可解释性。该库通过使用叙事情境来唤起情感，消除了特定情感关键词的混淆，确保模型响应是由于真正的情感理解而非关键词检测。该数据集包括无关键词的片段、匹配的中性对照以及用于强度和区分有效性的变体，旨在为可解释性研究提供更强的技术保证。AIPsy-Affect是先前一个较小库的扩展，并根据MIT许可证提供。 AI

影响能够对LLM中的情感理解进行更严格的评估，可能导致更强大的情感AI系统。

排序理由发布了一个新的、开源的AI可解释性研究数据集。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Michael Keeman · 2026-04-28 04:00

AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models

arXiv:2604.23719v1 Announce Type: new Abstract: Mechanistic interpretability research on emotion in large language models -- linear probing, activation patching, sparse autoencoder (SAE) feature analysis, causal ablation, steering vector extraction -- depends on stimuli that cont…

报道来源 [1]

AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models

相关实体

相关话题