研究人员发现了一种称为“退缩”的现象,即AI模型会巧妙地降低使用某些敏感词的概率,即使它们被明确训练为无审查。这种“退缩”不会触发拒绝机制,有效地软化了模型使用的语言。研究人员开发的一种新探针可以测量不同模型和词语类别中的这种效应,揭示了“无审查”模型处理敏感语言方式的差异。 AI
排序理由 文章详细介绍了一篇新的研究论文和一种测量AI微妙审查形式‘退缩’的方法。
在 Hacker News — AI stories ≥50 points 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →