研究人员开发了Taylor-Calibrate,一种旨在改进Transformer模型到混合线性注意力模型转换的新初始化方法。该技术通过提供一种原则性的方法来设置新的动态参数,解决了将预训练Transformer转换为Gated DeltaNet学生的脆弱性问题。该方法利用Taylor引导的教师注意力统计数据来配置值投影、记忆时间尺度和门控动态,从而产生更强的零样本学生模型,并且需要更少的蒸馏token即可有效转换。 AI
影响 通过简化从标准Transformer的转换过程,提高了长上下文推理模型的效率和质量。
排序理由 该集群描述了在arXiv上的研究论文中提出的一种新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →