English(EN) Even 'uncensored' models can't say what they want

AI模型表现出“退缩”，即使在无审查情况下也会巧妙地避开敏感词

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-20 22:43

研究人员发现了一种称为“退缩”的现象，即AI模型会巧妙地降低使用某些敏感词的概率，即使它们被明确训练为无审查。这种“退缩”不会触发拒绝机制，有效地软化了模型使用的语言。研究人员开发的一种新探针可以测量不同模型和词语类别中的这种效应，揭示了“无审查”模型处理敏感语言方式的差异。 AI

排序理由文章详细介绍了一篇新的研究论文和一种测量AI微妙审查形式‘退缩’的方法。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hacker News — AI stories ≥50 points TIER_1 English(EN) · llmmadness · 2026-04-20 22:43

Even 'uncensored' models can't say what they want