一篇新发表在arXiv上的研究论文详细介绍了语言模型中的预训练过滤器和护栏如何导致认识论不公。审计发现,这些系统不成比例地标记与边缘化群体相关的内容,例如跨性别者、女性和中美洲人,但却常常未能检测到露骨的仇恨言论或私人信息。人工标注者会保留这些自动化系统标记的大部分内容,这凸显了它们在捕捉细微的代表性伤害方面的能力差距。 AI
影响 揭示了当前大型语言模型中的内容审核系统如何无意中压制边缘化群体的声音,从而需要更细致的AI安全方法。
排序理由 该集群包含一篇详细介绍语言模型安全性和偏见研究结果的学术论文。
- Central Americans
- Common Crawl
- Epistemic injustice
- Language models
- Marco Antonio Stranisci
- Pretraining filters
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →