实体 Wangjie Gan

Wangjie Gan

PulseAugur coverage of Wangjie Gan — every cluster mentioning Wangjie Gan across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_08690 · Apr 29 · 04:00

新的GFT框架统一了SFT和RL，以实现更稳定的LLM训练

研究人员推出了一种名为Group Fine-Tuning (GFT) 的新颖框架，旨在统一大型语言模型（LLM）的监督微调（SFT）和强化学习（RL）。GFT通过采用群体优势学习（Group Advantage Learning）和动态系数校正（Dynamic Coefficient Rectification）来解决传统SFT的局限性，如单路径依赖和不稳定的权重。实验表明，GFT的性能优于标准的SFT方法，并有助于与后续的RL训练更顺畅地集成。