Vision Transformers linearized for faster inference with TTT

By PulseAugur Editorial · [1 sources] · 2026-05-28 00:00

Researchers have developed a method to convert pretrained Vision Transformer models into linear-complexity Test-Time Training (TTT) architectures. This approach aligns architectural and representational properties, allowing for efficient weight transfer from Softmax attention models. By applying this to Stable Diffusion 3.5, they created SD3.5-T^5, which achieves comparable image quality with significantly faster inference times after minimal fine-tuning. AI

IMPACT Enables faster inference for large vision models by adapting existing architectures.

RANK_REASON The cluster contains a research paper detailing a new method for model conversion and a resulting model. [lever_c_demoted from research: ic=1 ai=1.0]

Read on Hugging Face Daily Papers →

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

COVERAGE [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-28 00:00

Linearizing Vision Transformer with Test-Time Training

Researchers develop a method to convert pretrained Softmax attention models to linear-complexity Test-Time Training architectures through architectural and representational alignment, achieving fast inference with minimal fine-tuning.

COVERAGE [1]

Linearizing Vision Transformer with Test-Time Training

RELATED ENTITIES

RELATED TOPICS