New corpus targets implicit meaning in Bangla-English code-mixed text

By PulseAugur Editorial · [1 sources] · 2026-06-30 04:00

Researchers have introduced MixSarc, a new corpus designed to improve implicit meaning identification in Bangla-English code-mixed text. This dataset, containing 9,087 manually annotated sentences, addresses the scarcity of resources for languages that blend Bangla and English, which are common on South Asian social media. The corpus is intended to aid in the development of more reliable models for detecting humor, sarcasm, offensiveness, and vulgarity in such mixed-language contexts. AI

IMPACT This dataset could enable more accurate NLP models for code-mixed languages, improving understanding of nuanced communication on social media.

RANK_REASON The cluster describes a new academic paper introducing a dataset for NLP research. [lever_c_demoted from research: ic=1 ai=1.0]

Read on arXiv cs.CL →

paper
other

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

New corpus targets implicit meaning in Bangla-English code-mixed text

COVERAGE [1]

arXiv cs.CL TIER_1 English(EN) · Kazi Samin Yasar Alam, Md Tanbir Chowdhury, Tamim Ahmed, Ajwad Abrar, Md Rafid Haque · 2026-06-30 04:00

MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification

arXiv:2602.21608v2 Announce Type: replace Abstract: Bangla-English code-mixing is widespread across South Asian social media, yet resources for implicit meaning identification in this setting remain scarce. Existing sentiment and sarcasm models largely focus on monolingual Englis…

COVERAGE [1]

MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification

RELATED ENTITIES

RELATED TOPICS