PulseAugur
实时 12:03:47

新的“稀疏性诅咒”阻碍了先进RLVR AI模型的合并

一篇新研究论文介绍了“稀疏性诅咒”现象,该现象描述了尽管具有先进推理能力的强化学习可验证奖励(RLVR)模型,由于参数更新稀疏且分散,导致其难以合并。与易于合并的监督微调(SFT)模型不同,RLVR模型表现出脆弱的、近乎正交的参数更新,在使用标准方法组合时会降低性能。为了解决这个问题,研究人员提出了SAR-Merging,一种利用Fisher信息和幅度感知稀疏化来保留RLVR模型独特推理路径的新技术,并在数学和编码基准测试中展示了改进的性能。 AI

影响 这项研究可能导致更有效的组合专业AI模型的方法,从而加速开发更强大、更多功能的AI系统。

排序理由 该集群包含一篇详细介绍新现象和AI模型合并的拟议方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Chenrui Wu, Zexi Li, Jiajun Bu, Jiangchuan Liu, Haishuai Wang ·

    Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging

    arXiv:2606.18521v1 Announce Type: cross Abstract: Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful post-training paradigm that surpasses Supervised Fine-Tuning (SFT) in eliciting reasoning intelligence and resisting catastrophic forgetting. Recent st…