PulseAugur
实时 14:30:55

新框架应对多模态大语言模型中的灾难性遗忘问题

研究人员推出了一种名为 Curvature-Guided Mixing (CGM) 的新框架,旨在改进多模态大语言模型 (MLLM) 的适应性。该方法解决了灾难性遗忘问题,即在特定任务上进行微调会损害通用能力。CGM 利用损失景观的二阶近似,根据预训练模型和微调模型各自损失景观的曲率,分析性地确定混合它们的最佳比例。增强版 CGM$ exttt{ ext{ extdagger}}$ 通过一种新颖的曲率感知评分来指导鲁棒的参数选择。在 LLaVA-1.5Qwen2.5VL 上的实验表明,与现有技术相比,CGM 在任务专业化和通用知识保留之间取得了持续的平衡。 AI

影响 这项研究为缓解 MLLM 中的灾难性遗忘问题提供了一种新颖的方法,有望在不牺牲通用知识的情况下提高它们在专业任务上的通用性和性能。

排序理由 该集群包含一篇详细介绍 MLLM 适应新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新框架应对多模态大语言模型中的灾难性遗忘问题

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Jinglong Yang, Jiaxuan He, Wenjian Huang, Zhan Zhuang, Jianguo Zhang ·

    Curvature-Guided Mixing for MLLM Adaptation

    arXiv:2606.24963v1 Announce Type: cross Abstract: Fine-tuning Multimodal Large Language Models (MLLMs) on specialized tasks often leads to catastrophic forgetting of their general capabilities. Existing model merging methods to combat this are often heuristic or use sub-optimal o…