研究人员开发了一种名为nGPT的新型神经网络架构,该架构原生支持大语言模型的4位精度训练。该架构将权重和隐藏表示约束在单位超球面上,增强了对低精度算术的鲁棒性,并消除了对复杂缩放干预的需求。该方法已在高达300亿参数的模型上得到验证,显示出信噪比的提高和更稳定的损失曲线,预示着对更大规模模型具有显著优势。 AI
影响 引入了一种新颖的架构,可能显著降低训练大语言模型的计算成本。
排序理由 学术论文,介绍了一种用于高效LLM训练的新颖架构。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →