English(EN) EIBench: A Simulator-Based Benchmark and Turn-Credit RL for Emotion Management

新的EIBench基准评估LLM的情感管理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员推出EIBench，一个新推出的基于模拟器的基准，旨在评估和训练大型语言模型（LLM）在交互式情感管理方面的能力。该基准包含2,222个场景，涵盖支持、防御、修复和魅力，其中LLM模拟器扮演用户角色，并在每次交互后更新情感-关系状态。目前的LLM在支持性互动中表现良好，但在维护界限方面存在困难。为解决此问题，团队开发了CTC-GRPO，一种利用模拟器每次交互的状态更新进行密集反馈的强化学习方法，显著提高了Qwen3-8B在EIBench和其他评估中的表现。 AI

影响该基准和训练方法有望带来更具情感智能和交互性的AI代理，能够进行细致、多轮次的沟通。

排序理由该集群描述了一篇介绍LLM新基准和训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Rongzhi Zhu, Xiang Huang, Yuchuan Wu, Rui Wang, Zequn Sun, Tao Ren, Weiyao Luo, Bingxue Qiu, Jieping Ye, Yongbin Li, Wei Hu · 2026-06-16 04:00

EIBench: A Simulator-Based Benchmark and Turn-Credit RL for Emotion Management

arXiv:2606.15532v1 Announce Type: new Abstract: Emotional intelligence (EI) in Large Language Models (LLMs) is often evaluated through static understanding tasks or single-response dialogue generation. However, emotion management is interactive: a good model should not only recog…

报道来源 [1]

EIBench: A Simulator-Based Benchmark and Turn-Credit RL for Emotion Management

相关实体

相关话题