研究人员推出了 BanglaSocialBench,这是一个新的基准测试,旨在评估大型语言模型在孟加拉语中理解和使用社会语用学和文化细微差别的能力。该基准测试侧重于语境相关的语言使用,包括称谓、亲属关系推理和社会习俗,而不是事实回忆。对十二个当前大型语言模型的评估显示出持续的文化不匹配,例如默认使用过于正式的语言以及混淆亲属称谓,这凸显了它们在应用文化上适当的沟通方面的局限性。 AI
影响 强调了大型语言模型需要发展超越纯粹语言流利度的更深层次的文化和社会语用学理解。
排序理由 这是一篇介绍大型语言模型新基准测试的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →