English(EN) DLR: Zero-Inference-Cost Latent Residuals for Low-Rank Pre-Training

新的DLR方法在不增加成本的情况下提升了低秩大语言模型的预训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一种名为重复潜在残差（DLR）的新方法，以提高大型语言模型预训练的效率和质量。DLR是一种仅用于训练的技术，它为低秩预训练增加了固定的结构化残差，而低秩预训练通常会牺牲质量以降低参数和计算成本。该方法不引入额外的可学习参数，并且可以无缝集成到现有的低秩模型中，而不会增加其部署规模或计算需求。在LLaMA模型上的实验表明，DLR提高了预训练性能，特别是对于1.3亿参数及以上的模型，并且能有效地迁移到下游任务。 AI

影响该方法可以使大型语言模型的预训练更加易于访问和高效，从而可能加速该领域的研究和开发。

排序理由这是一篇详细介绍大型语言模型预训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Dong Wang, Wenwu Tang, Yun Cheng, Olga Saukh · 2026-06-30 04:00

DLR：低秩预训练的零推理成本潜在残差

arXiv:2606.28932v1 Announce Type: cross Abstract: Large language models have driven recent progress in language and multimodal AI, yet pre-training them at scale is prohibitively expensive. Low-rank pre-training, which factorizes each weight matrix into a rank-r product to reduce…

报道来源 [1]

DLR：低秩预训练的零推理成本潜在残差

相关实体

相关话题