新的“稀疏性诅咒”阻碍了先进RLVR AI模型的合并

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

一篇新研究论文介绍了“稀疏性诅咒”现象，该现象描述了尽管具有先进推理能力的强化学习可验证奖励（RLVR）模型，由于参数更新稀疏且分散，导致其难以合并。与易于合并的监督微调（SFT）模型不同，RLVR模型表现出脆弱的、近乎正交的参数更新，在使用标准方法组合时会降低性能。为了解决这个问题，研究人员提出了SAR-Merging，一种利用Fisher信息和幅度感知稀疏化来保留RLVR模型独特推理路径的新技术，并在数学和编码基准测试中展示了改进的性能。 AI

影响这项研究可能导致更有效的组合专业AI模型的方法，从而加速开发更强大、更多功能的AI系统。

排序理由该集群包含一篇详细介绍新现象和AI模型合并的拟议方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Chenrui Wu, Zexi Li, Jiajun Bu, Jiangchuan Liu, Haishuai Wang · 2026-06-18 04:00

Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging

arXiv:2606.18521v1 Announce Type: cross Abstract: Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful post-training paradigm that surpasses Supervised Fine-Tuning (SFT) in eliciting reasoning intelligence and resisting catastrophic forgetting. Recent st…

报道来源 [1]

Sparsity Curse: Understanding RLVR Model Parameter Space from Model Merging

相关实体

相关话题