研究人员推出 NeuronFabric,这是一种专为使用本地 Adam 更新进行片上 Transformer 训练而设计的软件参考架构。一个 C# 原型证明了该方法的可用性,无需外部框架即可处理前向传播、反向传播和 Adam 优化。该架构旨在通过将权重存储在 BF16 中,同时将 Adam 优化器矩保留在 FP32 中(一种称为 BF16W 的配置)来减少内存需求。该方法在训练 Shakespeare 语料库的 334K 参数 Transformer 上进行了验证,显示出与 FP32 GPU 参考相当的评估损失。 AI
影响 提出了一种用于高效片上 Transformer 训练的新型架构,有可能降低硬件内存需求。
排序理由 介绍一种用于片上 Transformer 训练的新型软件架构的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Adam
- application-specific integrated circuit
- BF16W
- field-programmable gate array
- NeuronFabric
- Shakespeare
- Xilinx ZCU102
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →