arXiv上发表的一项新研究探讨了代码混合语言对仇恨言论审核系统的影响。研究人员发现,当内容以英语和泰米尔语的混合形式表达时,审核系统会表现出显著的不稳定性,与纯英语输入相比,决策翻转率高达26.5%。这种不稳定性导致审查负担增加,并提高了错误标记非仇恨内容的比率。研究表明,目前仅关注纯英语输入的评估方法未能捕捉到这些关键的工作流故障。 AI
影响 突显了人工智能审核系统在遇到非标准语言时出现的关键故障,可能影响现实世界的内容过滤。
排序理由 关于人工智能安全和审核系统的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →