PulseAugur
实时 06:55:30
English(EN) Normalized Architectures are Natively 4-Bit

新型nGPT架构实现大语言模型原生4位训练

研究人员开发了一种名为nGPT的新型神经网络架构,该架构原生支持大语言模型的4位精度训练。该架构将权重和隐藏表示约束在单位超球面上,增强了对低精度算术的鲁棒性,并消除了对复杂缩放干预的需求。该方法已在高达300亿参数的模型上得到验证,显示出信噪比的提高和更稳定的损失曲线,预示着对更大规模模型具有显著优势。 AI

影响 引入了一种新颖的架构,可能显著降低训练大语言模型的计算成本。

排序理由 学术论文,介绍了一种用于高效LLM训练的新颖架构。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新型nGPT架构实现大语言模型原生4位训练

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Maxim Fishman, Brian Chmiel, Ron Banner, Daniel Soudry, Boris Ginsburg ·

    Normalized Architectures are Natively 4-Bit

    arXiv:2605.06067v1 Announce Type: new Abstract: Training large language models at 4-bit precision is critical for efficiency. We show that nGPT, an architecture that constrains weights and hidden representations to the unit hypersphere, is inherently more robust to low-precision …