English(EN) MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification

新语料库针对孟加拉语-英语混合文本中的隐含意义

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出了 MixSarc，一个旨在提高孟加拉语-英语混合文本中隐含意义识别能力的新语料库。该数据集包含 9,087 个手动标注的句子，解决了孟加拉语和英语混合语言资源稀缺的问题，这种混合语言在南亚社交媒体上很常见。该语料库旨在帮助开发更可靠的模型，以检测此类混合语言环境中的幽默、讽刺、冒犯性和粗俗性。 AI

影响该数据集可以实现更准确的混合语言自然语言处理模型，从而提高对社交媒体上细微交流的理解。

排序理由该集群描述了一篇介绍用于自然语言处理研究的数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Kazi Samin Yasar Alam, Md Tanbir Chowdhury, Tamim Ahmed, Ajwad Abrar, Md Rafid Haque · 2026-06-30 04:00

MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification

arXiv:2602.21608v2 Announce Type: replace Abstract: Bangla-English code-mixing is widespread across South Asian social media, yet resources for implicit meaning identification in this setting remain scarce. Existing sentiment and sarcasm models largely focus on monolingual Englis…

报道来源 [1]

MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification

相关实体

相关话题