PulseAugur
实时 12:59:33
English(EN) Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

新研究对大型语言模型中的灾难性遗忘进行机制分析

一篇新的研究论文分析了大型语言模型在持续微调过程中出现的灾难性遗忘问题,并对二十个领先模型进行了比较。该研究将调查分为对Claude Fable 5和GPT 5.5 High等闭源模型的行为分析,以及对DeepSeek V4-Pro和Llama 4 Maverick等开放权重模型的机制解释。研究人员发现,早期层的注意力头出现分散,而中深层的前馈网络则经历局部崩溃。为解决此问题,他们提出了低秩电路投影(LRCP),该干预措施成功地将开放权重模型中的祖先能力损失降低了高达94.2%。 AI

影响 提出了一种新的干预措施来缓解灾难性遗忘,有可能提高大型语言模型在持续学习场景中的适应性和性能。

排序理由 一篇发表在arXiv上的研究论文,详细介绍了对大型语言模型中灾难性遗忘的机制分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Gustav Olaf Yunus Laitinen-Fredriksson Lundstrom-Imanov ·

    Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

    arXiv:2601.18699v2 Announce Type: replace-cross Abstract: Sequential fine-tuning of Large Language Models (LLMs) adaptation to target tasks often triggers catastrophic forgetting, where the acquisition of novel target skills degrades ancestral capabilities. This paper presents a …