English(EN) GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

新的GFT框架统一了SFT和RL，以实现更稳定的LLM训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-29 04:00

研究人员推出了一种名为Group Fine-Tuning (GFT) 的新颖框架，旨在统一大型语言模型（LLM）的监督微调（SFT）和强化学习（RL）。GFT通过采用群体优势学习（Group Advantage Learning）和动态系数校正（Dynamic Coefficient Rectification）来解决传统SFT的局限性，如单路径依赖和不稳定的权重。实验表明，GFT的性能优于标准的SFT方法，并有助于与后续的RL训练更顺畅地集成。 AI

影响引入了一个统一的训练框架，可能会提高LLM的泛化能力和RL集成。

排序理由这是一篇详细介绍大型语言模型新训练框架的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Wangjie Gan, Miao Pan, Linbo Xi, Kaixiang Yao, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang · 2026-04-29 04:00

GFT：从模仿到奖励微调，兼具无偏群体优势与动态系数校正

arXiv:2604.14258v2 Announce Type: replace-cross Abstract: Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In…

报道来源 [1]

GFT：从模仿到奖励微调，兼具无偏群体优势与动态系数校正

相关实体

相关话题