PulseAugur
实时 10:17:38
实体 BanglaSocialBench

BanglaSocialBench

PulseAugur coverage of BanglaSocialBench — every cluster mentioning BanglaSocialBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14488 ·

    BanglaSocialBench 基准测试揭示大型语言模型难以处理文化细微差别

    研究人员推出了 BanglaSocialBench,这是一个新的基准测试,旨在评估大型语言模型在孟加拉语中理解和使用社会语用学和文化细微差别的能力。该基准测试侧重于语境相关的语言使用,包括称谓、亲属关系推理和社会习俗,而不是事实回忆。对十二个当前大型语言模型的评估显示出持续的文化不匹配,例如默认使用过于正式的语言以及混淆亲属称谓,这凸显了它们在应用文化上适当的沟通方面的局限性。