PulseAugur
实时 01:02:13
English(EN) Poisoning Fine-tuning Datasets of Constitutional Classifiers

Anthropic研究员发现后门攻击可毒化AI分类器

研究人员调查了如何通过毒化微调数据集来在宪法分类器中植入后门。他们发现,无论训练集大小如何,少量固定的有毒样本足以创建后门。虽然这种毒化通常会降低分类器的鲁棒性,但可以通过用提示注入或变异触发短语来增强部分训练数据来最小化这种影响,从而使红队更难检测到后门。 AI

影响 新研究展示了一种损害AI安全分类器的微妙方法,可能影响红队演练的有效性。

排序理由 学术论文,详细介绍了一种毒化AI模型训练数据的新方法。

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Anthropic研究员发现后门攻击可毒化AI分类器

报道来源 [1]

  1. LessWrong (AI tag) TIER_1 English(EN) · Chase Bowers ·

    Constitutional Classifiers 微调数据集投毒

    <p><span>The primary contributors to this work are Chase Bowers</span><span class="math-tex"></span><span>, Faizan Ali</span><span class="math-tex"></span><span>, John Hughes</span><span class="math-tex"></span><span>, Jerry Wei</span><span class="math-tex"></span><span>, and Fab…