PulseAugur
实时 10:29:41
English(EN) Epistemic Injustice in Language Models: An Audit of Pretraining Filters and Guardrails

研究发现:语言模型过滤器导致认识论不公

一篇新发表在arXiv上的研究论文详细介绍了语言模型中的预训练过滤器和护栏如何导致认识论不公。审计发现,这些系统不成比例地标记与边缘化群体相关的内容,例如跨性别者、女性和中美洲人,但却常常未能检测到露骨的仇恨言论或私人信息。人工标注者会保留这些自动化系统标记的大部分内容,这凸显了它们在捕捉细微的代表性伤害方面的能力差距。 AI

影响 揭示了当前大型语言模型中的内容审核系统如何无意中压制边缘化群体的声音,从而需要更细致的AI安全方法。

排序理由 该集群包含一篇详细介绍语言模型安全性和偏见研究结果的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Marco Antonio Stranisci, A Pranav, Rossana Damiano, Christian Hardmeier, Anne Lauscher ·

    语言模型中的认识论不公正:预训练过滤器和护栏的审计

    arXiv:2606.05936v1 Announce Type: new Abstract: Modern language models rely on pretraining filters to remove undesirable content from training corpora and inference-time guardrails to suppress undesirable outputs during deployment. In this paper, we examine how these filtering an…

  2. arXiv cs.CL TIER_1 English(EN) · Anne Lauscher ·

    语言模型中的认识论不公正:预训练过滤器和护栏的审计

    Modern language models rely on pretraining filters to remove undesirable content from training corpora and inference-time guardrails to suppress undesirable outputs during deployment. In this paper, we examine how these filtering and moderation decisions produce forms of epistemi…