English(EN) PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging

PivotMerge框架整合多模态大语言模型对齐能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员推出了一种新颖的框架PivotMerge，旨在整合不同多模态大语言模型（MLLMs）的跨模态对齐能力。该方法解决了预训练模型合并中的挑战，特别是跨域参数干扰和对齐中层贡献不均的问题。PivotMerge利用共享空间分解和过滤，以及对齐引导的层级合并，来有效地结合这些专家模型。在多模态基准测试上的实验表明，PivotMerge在桥接异构预训练方面优于现有方法。 AI

影响引入了一种合并预训练多模态模型的新方法，有望提高效率和能力整合。

排序理由这是一篇描述多模态大语言模型新框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Zibo Shao, Baochen Xiong, Xiaoshan Yang, Yaguang Song, Qimeng Zhang, Haifeng Chen, Changsheng Xu · 2026-04-28 04:00

PivotMerge：通过后对齐模型合并实现异构多模态预训练的桥接

arXiv:2604.22823v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) rely on multimodal pre-training over diverse data sources, where different datasets often induce complementary cross-modal alignment capabilities. Model merging provides a cost-effective mech…

报道来源 [1]

PivotMerge：通过后对齐模型合并实现异构多模态预训练的桥接

相关实体

相关话题