English(EN) Normalized Architectures are Natively 4-Bit

新型nGPT架构实现大语言模型原生4位训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员开发了一种名为nGPT的新型神经网络架构，该架构原生支持大语言模型的4位精度训练。该架构将权重和隐藏表示约束在单位超球面上，增强了对低精度算术的鲁棒性，并消除了对复杂缩放干预的需求。该方法已在高达300亿参数的模型上得到验证，显示出信噪比的提高和更稳定的损失曲线，预示着对更大规模模型具有显著优势。 AI

影响引入了一种新颖的架构，可能显著降低训练大语言模型的计算成本。

排序理由学术论文，介绍了一种用于高效LLM训练的新颖架构。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Maxim Fishman, Brian Chmiel, Ron Banner, Daniel Soudry, Boris Ginsburg · 2026-05-08 04:00

标准化架构原生支持4位

arXiv:2605.06067v1 Announce Type: new Abstract: Training large language models at 4-bit precision is critical for efficiency. We show that nGPT, an architecture that constrains weights and hidden representations to the unit hypersphere, is inherently more robust to low-precision …

报道来源 [1]

标准化架构原生支持4位

相关实体

相关话题