研究人员推出了 MixSarc,一个旨在提高孟加拉语-英语混合文本中隐含意义识别能力的新语料库。该数据集包含 9,087 个手动标注的句子,解决了孟加拉语和英语混合语言资源稀缺的问题,这种混合语言在南亚社交媒体上很常见。该语料库旨在帮助开发更可靠的模型,以检测此类混合语言环境中的幽默、讽刺、冒犯性和粗俗性。 AI
影响 该数据集可以实现更准确的混合语言自然语言处理模型,从而提高对社交媒体上细微交流的理解。
排序理由 该集群描述了一篇介绍用于自然语言处理研究的数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →