English(EN) Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

新的Anchored Learning框架稳定LLM微调，减少灾难性遗忘

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-06 03:48

研究人员开发了一个名为Anchored Learning的新框架，以减轻大型语言模型在监督微调过程中灾难性遗忘的问题。该方法通过使用动态移动锚点显式控制分布更新，该锚点在当前模型和冻结的参考模型之间进行插值。该方法在理论上保证了模型分布之间的稳定过渡，并在iGSM和MedCalc等基准测试中实证证明了性能下降的显著减少，同时保持了接近最优的收益。 AI

影响解决了LLM中的灾难性遗忘问题，有望提高微调模型的稳定性和可靠性。

排序理由该集群包含一篇arXiv预印本，详细介绍了一种稳定LLM微调的新方法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Xinyu Wang, Changzhi Sun, Yuanbin Wu, Xiaoling Wang · 2026-05-07 04:00

Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

arXiv:2605.04468v1 Announce Type: new Abstract: Post-training large language models (LLMs) often suffers from catastrophic forgetting, where improvements on a target objective degrade previously acquired capabilities. Recent evidence suggests that this phenomenon is primarily dri…
arXiv cs.CL TIER_1 English(EN) · Xiaoling Wang · 2026-05-06 03:48

Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

Post-training large language models (LLMs) often suffers from catastrophic forgetting, where improvements on a target objective degrade previously acquired capabilities. Recent evidence suggests that this phenomenon is primarily driven by excessive distributional drift during opt…

报道来源 [2]

Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

相关实体

相关话题