PulseAugur
实时 06:57:16
实体 Wangjie Gan

Wangjie Gan

PulseAugur coverage of Wangjie Gan — every cluster mentioning Wangjie Gan across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08690 ·

    新的GFT框架统一了SFT和RL,以实现更稳定的LLM训练

    研究人员推出了一种名为Group Fine-Tuning (GFT) 的新颖框架,旨在统一大型语言模型(LLM)的监督微调(SFT)和强化学习(RL)。GFT通过采用群体优势学习(Group Advantage Learning)和动态系数校正(Dynamic Coefficient Rectification)来解决传统SFT的局限性,如单路径依赖和不稳定的权重。实验表明,GFT的性能优于标准的SFT方法,并有助于与后续的RL训练更顺畅地集成。