English(EN) Poisoning Fine-tuning Datasets of Constitutional Classifiers

Anthropic研究员发现后门攻击可毒化AI分类器

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 17:25

研究人员调查了如何通过毒化微调数据集来在宪法分类器中植入后门。他们发现，无论训练集大小如何，少量固定的有毒样本足以创建后门。虽然这种毒化通常会降低分类器的鲁棒性，但可以通过用提示注入或变异触发短语来增强部分训练数据来最小化这种影响，从而使红队更难检测到后门。 AI

影响新研究展示了一种损害AI安全分类器的微妙方法，可能影响红队演练的有效性。

排序理由学术论文，详细介绍了一种毒化AI模型训练数据的新方法。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Chase Bowers · 2026-04-29 17:25

Constitutional Classifiers 微调数据集投毒

The primary contributors to this work are Chase Bowers, Faizan Ali, John Hughes, Jerry Wei, and Fab…