PulseAugur
实时 07:00:36
English(EN) GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

新的GFT框架统一了SFT和RL,以实现更稳定的LLM训练

研究人员推出了一种名为Group Fine-Tuning (GFT) 的新颖框架,旨在统一大型语言模型(LLM)的监督微调(SFT)和强化学习(RL)。GFT通过采用群体优势学习(Group Advantage Learning)和动态系数校正(Dynamic Coefficient Rectification)来解决传统SFT的局限性,如单路径依赖和不稳定的权重。实验表明,GFT的性能优于标准的SFT方法,并有助于与后续的RL训练更顺畅地集成。 AI

影响 引入了一个统一的训练框架,可能会提高LLM的泛化能力和RL集成。

排序理由 这是一篇详细介绍大型语言模型新训练框架的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的GFT框架统一了SFT和RL,以实现更稳定的LLM训练

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Wangjie Gan, Miao Pan, Linbo Xi, Kaixiang Yao, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang ·

    GFT:从模仿到奖励微调,兼具无偏群体优势与动态系数校正

    arXiv:2604.14258v2 Announce Type: replace-cross Abstract: Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In…