PulseAugur
实时 11:52:44
实体 Ψ-Bench

Ψ-Bench

PulseAugur coverage of Ψ-Bench — every cluster mentioning Ψ-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_68070 ·

    新基准Ψ-Bench测试LLM的说服性对话能力

    研究人员推出了Ψ-Bench,这是一个旨在评估大型语言模型(LLM)在对话环境中说服能力的新基准。该基准侧重于对角色敏感的影响,即LLM主动引导用户,而不是被动回应偏好。对10个前沿LLM的评估显示,虽然模型可以生成连贯的论点,但在说服方面仍有很大的改进空间。研究还发现,为LLM提供用户画像可以使它们的表现平均提高18.24%,这凸显了用户特定信息对于有效影响的重要性。