Brief · PulseAugur

TOOL · Qwen tech blog English(EN) · 4w

FlashQLA: CP-/Bwd-Friendly Fused Linear Attention Kernels for GDN

Qwen has developed FlashQLA, a new set of fused linear attention kernels designed to be compatible with both forward and backward passes in deep learning. These kernels are optimized for Gated Delta Networks (GDN), which are now a core component in Qwen's model family, including Qwen3-Next and its subsequent iterations like Qwen3.5 and Qwen3.6. The development aims to improve efficiency and scalability for large models with extended context windows. AI

IMPACT Optimizes attention mechanisms for large language models, potentially improving training and inference efficiency for Qwen's model family.

Qwen
FlashQLA
Qwen3-Next
Gated Delta Network
Qwen3.6