PulseAugur
实时 11:28:50
实体 rejuvenation

rejuvenation

PulseAugur coverage of rejuvenation — every cluster mentioning rejuvenation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_82540 ·

    新方法恢复LLM可塑性,以改善SFT后的RL效果

    研究人员发现了一种称为“模型可塑性损失”的现象,该现象阻碍了大型语言模型在监督微调(SFT)后进行强化学习(RL)的有效性。过度的SFT会导致模型过于自信的token分布和困难的优化景观,限制了RL进一步提升模型能力的能力。为了解决这个问题,提出了一种名为“Rejuvenation”的新方法,该方法使用基于基础模型的融合和有针对性的神经元重置来恢复可塑性,同时保留SFT的好处,在推理和代理任务上表现出改进的性能。