一篇新研究论文介绍了一种名为UFP4的统一4位训练方法,旨在解决大型语言模型预训练中的收缩偏差问题。研究发现,当前非统一FP4格式(如NVIDIA Blackwell/Rubin和AMD MI350 GPU中使用的E2M1)会引入系统性舍入误差。相比之下,UFP4采用统一网格(E1M2/INT4)来提高量化质量,并在各种模型规模上展示出比现有的基于E2M1的方法更低的损失下降。 AI
影响 这项研究通过改进量化技术,可能带来更高效、更稳定的LLM训练。
排序理由 该集群包含一篇详细介绍LLM预训练新方法的论文。
- AMD MI350
- Dense 1.5B
- E1M2
- E2M1
- INT4
- LLM
- MoE 124B
- MoE 7.9B
- NVIDIA Blackwell
- Random Hadamard Transform
- UFP4
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →