研究人员推出EIBench,一个新推出的基于模拟器的基准,旨在评估和训练大型语言模型(LLM)在交互式情感管理方面的能力。该基准包含2,222个场景,涵盖支持、防御、修复和魅力,其中LLM模拟器扮演用户角色,并在每次交互后更新情感-关系状态。目前的LLM在支持性互动中表现良好,但在维护界限方面存在困难。为解决此问题,团队开发了CTC-GRPO,一种利用模拟器每次交互的状态更新进行密集反馈的强化学习方法,显著提高了Qwen3-8B在EIBench和其他评估中的表现。 AI
影响 该基准和训练方法有望带来更具情感智能和交互性的AI代理,能够进行细致、多轮次的沟通。
排序理由 该集群描述了一篇介绍LLM新基准和训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →