English(EN) Is GPT-4o mini Blinded by its Own Safety Filters? Exposing the Multimodal-to-Unimodal Bottleneck in Hate Speech Detection

GPT-4o mini 安全过滤器阻碍多模态仇恨言论检测

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

一篇研究论文指出了OpenAI的GPT-4o mini中一个被称为“单模态瓶颈”的重大缺陷。该问题导致模型的安全过滤器覆盖了其先进的多模态推理能力，从而导致分类错误，尤其是在仇恨言论检测方面。研究发现，这些安全覆盖同样由视觉和文本内容触发，并且它们错误地标记了良性内容，这表明了AI能力与安全之间的紧张关系。 AI

影响突显了已部署多模态模型中潜在的安全漏洞，并暗示需要更集成的对齐策略。

排序理由该集群包含一篇分析AI模型安全特性和性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Niruthiha Selvanayagam, Ted Kurti · 2026-05-26 04:00

GPT-4o mini 是否因自身安全过滤器而“失明”？揭示仇恨言论检测中的多模态到单模态瓶颈

arXiv:2509.13608v2 Announce Type: replace Abstract: As Large Multimodal Models (LMMs) become integral to daily digital life, understanding their safety architectures is a critical problem for AI Alignment. This paper presents a systematic analysis of OpenAI's GPT-4o mini, a globa…

报道来源 [1]

GPT-4o mini 是否因自身安全过滤器而“失明”？揭示仇恨言论检测中的多模态到单模态瓶颈

相关实体

相关话题