English(EN) How do datasets, developers, and models affect biases in a low-resourced language?: The Case of the Bengali Language

研究发现：孟加拉语人工智能模型存在身份偏见，尽管数据相似

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

一篇新论文调查了孟加拉语（一种低资源语言）的文本情感分析模型中存在的偏见。研究人员审计了像 mBERT 和 BanglaBERT 这样的模型，这些模型在孟加拉语情感分析数据集上进行了微调，并发现它们表现出与性别、宗教和国籍相关的偏见。研究还强调了由于结合了预训练模型和由不同人口统计背景的个人创建的数据集而产生的 But inconsistencies，并将这些发现与关于认识论不公和人工智能对齐的更广泛讨论联系起来。 AI

影响强调了仔细的数据集管理和模型审计对于减轻低资源语言自然语言处理应用中偏见的必要性。

排序理由分析低资源语言自然语言处理模型偏见的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Dipto Das, Shion Guha, Bryan Semaan · 2026-05-08 04:00

数据集、开发者和模型如何影响低资源语言的偏见？：以孟加拉语为例

arXiv:2506.06816v2 Announce Type: replace Abstract: Sociotechnical systems, such as language technologies, frequently exhibit identity-based biases. These biases exacerbate the experiences of historically marginalized communities and remain understudied in low-resource contexts. …

报道来源 [1]

数据集、开发者和模型如何影响低资源语言的偏见？：以孟加拉语为例

相关实体

相关话题