English(EN) When Surface Form Changes Moderation Decisions: A Paired Study of Code-Mixed Workflow Instability

代码混合语言破坏了人工智能仇恨言论的审核

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

arXiv上发表的一项新研究探讨了代码混合语言对仇恨言论审核系统的影响。研究人员发现，当内容以英语和泰米尔语的混合形式表达时，审核系统会表现出显著的不稳定性，与纯英语输入相比，决策翻转率高达26.5%。这种不稳定性导致审查负担增加，并提高了错误标记非仇恨内容的比率。研究表明，目前仅关注纯英语输入的评估方法未能捕捉到这些关键的工作流故障。 AI

影响突显了人工智能审核系统在遇到非标准语言时出现的关键故障，可能影响现实世界的内容过滤。

排序理由关于人工智能安全和审核系统的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Suraj Babu Thimma Krishnaram · 2026-06-05 04:00

当表面形式改变审核决策：一项代码混合工作流不稳定性配对研究

arXiv:2606.05654v1 Announce Type: cross Abstract: Hate moderation is often evaluated as classification on clean English inputs, but deployed systems must route content to actions such as ALLOW, FLAG, or REVIEW. We study how this workflow changes under code-mixed inputs using a pa…

报道来源 [1]

当表面形式改变审核决策：一项代码混合工作流不稳定性配对研究

相关实体

相关话题