PulseAugur
实时 10:10:00
实体 EQ-bench

EQ-bench

PulseAugur coverage of EQ-bench — every cluster mentioning EQ-bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_18884 ·

    MICA框架通过新颖的强化学习方法增强LLM情感支持对话

    研究人员推出了一种新颖的强化学习框架MICA,旨在提高大型语言模型在多轮情感支持对话中的表现。这种无需批评者的方法通过从共享势函数中推导即时和延迟信用,来解决稀疏奖励和信用分配不佳等挑战。MICA利用增量距离奖励进行逐轮优化,并利用其蒙特卡洛回报来处理延迟效应,在Qwen模型测试中,在EMPA、EQ-Bench和EmoBench等基准测试中表现出显著的改进。

  2. FRONTIER RELEASE · CL_01786 ·

    xAI 的 Grok 4.1 在文本竞技场和 EQ-bench 中领先,创意写作表现出色

    xAI 发布了 Grok 4.1,该模型在 Chatbot Arena 和 EQ-bench 评估中均取得了最高排名。该公司报告称,新版本在创意写作能力方面比前代产品有所提升。这些进步使 Grok 4.1 在多项关键性能指标上处于领先地位。