研究人员发现,在使用零阶(ZO)优化时,微调大型语言模型(LLM)的单个层与微调整个模型一样有效。通过在训练前分析激活值异常值来识别出的这个主导层,在各种任务和模型系列中,其效果始终能媲美甚至超越全模型ZO微调。主导层的有效性源于其高扰动敏感性和在残差流中的早期位置,这使得优化信号能够高效传播。该方法显著加快了速度,实验显示训练速度提高了4.52倍,同时保持或提高了性能。 AI
影响 这项研究可能显著降低微调LLM所需的计算成本和时间,使先进的模型适应更加普及。
排序理由 该集群包含一篇详细介绍LLM微调新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →