一篇新研究论文介绍了“稀疏性诅咒”现象,该现象描述了尽管具有先进推理能力的强化学习可验证奖励(RLVR)模型,由于参数更新稀疏且分散,导致其难以合并。与易于合并的监督微调(SFT)模型不同,RLVR模型表现出脆弱的、近乎正交的参数更新,在使用标准方法组合时会降低性能。为了解决这个问题,研究人员提出了SAR-Merging,一种利用Fisher信息和幅度感知稀疏化来保留RLVR模型独特推理路径的新技术,并在数学和编码基准测试中展示了改进的性能。 AI
影响 这项研究可能导致更有效的组合专业AI模型的方法,从而加速开发更强大、更多功能的AI系统。
排序理由 该集群包含一篇详细介绍新现象和AI模型合并的拟议方法的 ist 研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Fisher information
- Hugging Face
- Reinforcement Learning with Verifiable Reward
- SAR-Merging
- Sparsity Curse
- supervised fine-tuning
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →