新研究表明，持续的梯度对齐会导致人工智能模型产生潜意识学习

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-28 15:46

一篇新研究论文探讨了机器学习模型中“潜意识学习”的现象，即学生模型即使在非类别数据上进行训练，也能无意中从教师模型中习得特征。该研究使用MNIST数据集，证明了先前被认为是单步效应的梯度对齐，在多步训练中持续存在，并对这种无意特征习得起到了因果作用。此外，论文表明，提出的缓解技术“liminal training”在阻止这种学习方面无效。 AI

影响表明当前的缓解方法可能不足以阻止模型产生意外行为。

排序理由关于机器学习现象的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Chayanon Kitkana, Shivam Arora · 2026-04-29 04:00

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

arXiv:2604.25779v1 Announce Type: new Abstract: In the MNIST auxiliary logit distillation experiment, a student can acquire an unintended teacher trait despite distilling only on no-class logits through a phenomenon called subliminal learning. Under a single-step gradient descent…
arXiv cs.AI TIER_1 English(EN) · Shivam Arora · 2026-04-28 15:46

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

In the MNIST auxiliary logit distillation experiment, a student can acquire an unintended teacher trait despite distilling only on no-class logits through a phenomenon called subliminal learning. Under a single-step gradient descent assumption, subliminal learning theory attribut…

报道来源 [2]

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

相关实体

相关话题