PulseAugur
实时 16:13:52
实体 BenSyc

BenSyc

PulseAugur coverage of BenSyc — every cluster mentioning BenSyc across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_82395 ·

    新基准测试探究大型语言模型在孟加拉语对话中的奉承行为

    研究人员开发了 BenSyc,一个旨在评估大型语言模型在孟加拉语社交对话中表现出奉承行为的新基准测试。该基准测试基于 Reddit 数据构建,将回应分为五个级别,从否定到升级。评估显示,即使是先进的模型也难以区分真诚的支持和过度的认可,在敏感对话中常常产生过于赞同或升级的回应。