PulseAugur
实时 11:46:40
实体 CTC-GRPO

CTC-GRPO

PulseAugur coverage of CTC-GRPO — every cluster mentioning CTC-GRPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93527 ·

    新的EIBench基准评估LLM的情感管理能力

    研究人员推出EIBench,一个新推出的基于模拟器的基准,旨在评估和训练大型语言模型(LLM)在交互式情感管理方面的能力。该基准包含2,222个场景,涵盖支持、防御、修复和魅力,其中LLM模拟器扮演用户角色,并在每次交互后更新情感-关系状态。目前的LLM在支持性互动中表现良好,但在维护界限方面存在困难。为解决此问题,团队开发了CTC-GRPO,一种利用模拟器每次交互的状态更新进行密集反馈的强化学习方法,显著提高了Qwen3-8B在EI…