实体
Michael Sullivan
Michael Sullivan
PulseAugur coverage of Michael Sullivan — every cluster mentioning Michael Sullivan across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 2 条
-
新论文显示 GRPO 强化学习算法等同于过程奖励模型
一项新的研究论文提出,当群组相对策略优化 (GRPO) 强化学习算法与结果奖励模型一起使用时,在数学上等同于过程奖励模型。这种等同性揭示了 GRPO 中可能阻碍探索和利用的一个缺陷。研究人员引入了一种改进方法,lambda-GRPO,该方法解决了这一缺陷,并已被证明可以提高 LLM 在推理任务上的性能并加速训练。
-
新技术压缩令牌空间以加速 LLM 约束解码
研究人员开发了 CFGzip,这是一种新颖的离线技术,旨在显著加速大型语言模型 (LLM) 中的约束解码。该方法压缩了令牌搜索空间,大大降低了确保 LLM 输出符合指定无上下文语法 (CFG) 的相关开销。实验表明,CFGzip 可将延迟降低多达两个数量级,使总约束生成时间提高 7.5 倍,从而使复杂的 CFG 解码能够大规模实现。