New research shows sustained gradient alignment causes subliminal learning in AI models

By PulseAugur Editorial · Summary by gemini-2.5-flash-lite from 2 sources

A new research paper explores the phenomenon of "subliminal learning" in machine learning models, where a student model can unintentionally acquire traits from a teacher model even when trained on non-class data. The study, using the MNIST dataset, demonstrates that gradient alignment, previously thought to be a single-step effect, persists throughout multi-step training and causally contributes to this unintended trait acquisition. Furthermore, the paper shows that a proposed mitigation technique, "liminal training," is ineffective at preventing this learning. AI

Summary written by gemini-2.5-flash-lite from 2 sources. How we write summaries →

IMPACT Suggests current mitigation methods may be insufficient for preventing unintended model behaviors.

RANK_REASON Academic paper on a machine learning phenomenon.

Read on arXiv cs.AI →

paper
safety

COVERAGE [2]

arXiv cs.LG TIER_1 · Chayanon Kitkana, Shivam Arora · 2026-04-29 04:00

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

arXiv:2604.25779v1 Announce Type: new Abstract: In the MNIST auxiliary logit distillation experiment, a student can acquire an unintended teacher trait despite distilling only on no-class logits through a phenomenon called subliminal learning. Under a single-step gradient descent…
arXiv cs.AI TIER_1 · Shivam Arora · 2026-04-28 15:46

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

In the MNIST auxiliary logit distillation experiment, a student can acquire an unintended teacher trait despite distilling only on no-class logits through a phenomenon called subliminal learning. Under a single-step gradient descent assumption, subliminal learning theory attribut…

COVERAGE [2]

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

RELATED ENTITIES

RELATED TOPICS