CoQuant paper introduces joint projection for efficient LLM mixed-precision quantization

作者 PulseAugur 编辑部 · [3 个来源] · 2026-04-29 07:41

Researchers have introduced CoQuant, a novel method for mixed-precision quantization in Large Language Models (LLMs). This technique addresses limitations in existing approaches by jointly considering both weight and activation statistics to identify critical subspaces for high-precision preservation. CoQuant utilizes a theoretically modeled error and a weighted PCA solution to balance these covariances, aiming to reduce inference costs more effectively. Experiments on Llama-3.2 and Qwen2.5 models demonstrate CoQuant's superior performance in perplexity and reasoning accuracy compared to current post-training quantization baselines. AI

影响 Improves LLM efficiency by reducing inference costs through optimized mixed-precision quantization.

排序理由 The cluster contains an academic paper detailing a new method for LLM quantization.

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.LG TIER_1 English(EN) · Zhe Ding, Su Pan, Duowei Pan · 2026-04-30 04:00

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

arXiv:2604.26378v1 Announce Type: new Abstract: Post-training quantization (PTQ) has become an important technique for reducing the inference cost of Large Language Models (LLMs). While recent mixed-precision methods improve ultra-low bit quantization by preserving critical subsp…
arXiv cs.LG TIER_1 English(EN) · Duowei Pan · 2026-04-29 07:41

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

Post-training quantization (PTQ) has become an important technique for reducing the inference cost of Large Language Models (LLMs). While recent mixed-precision methods improve ultra-low bit quantization by preserving critical subspaces in high precision, they typically construct…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-29 07:41

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

Post-training quantization (PTQ) has become an important technique for reducing the inference cost of Large Language Models (LLMs). While recent mixed-precision methods improve ultra-low bit quantization by preserving critical subspaces in high precision, they typically construct…

报道来源 [3]

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

相关实体

相关话题