实体 Michael Sullivan

Michael Sullivan

PulseAugur coverage of Michael Sullivan — every cluster mentioning Michael Sullivan across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_58783 · May 29 · 04:00

新论文显示 GRPO 强化学习算法等同于过程奖励模型

一项新的研究论文提出，当群组相对策略优化 (GRPO) 强化学习算法与结果奖励模型一起使用时，在数学上等同于过程奖励模型。这种等同性揭示了 GRPO 中可能阻碍探索和利用的一个缺陷。研究人员引入了一种改进方法，lambda-GRPO，该方法解决了这一缺陷，并已被证明可以提高 LLM 在推理任务上的性能并加速训练。
TOOL · CL_58665 · May 29 · 04:00

新技术压缩令牌空间以加速 LLM 约束解码

研究人员开发了 CFGzip，这是一种新颖的离线技术，旨在显著加速大型语言模型 (LLM) 中的约束解码。该方法压缩了令牌搜索空间，大大降低了确保 LLM 输出符合指定无上下文语法 (CFG) 的相关开销。实验表明，CFGzip 可将延迟降低多达两个数量级，使总约束生成时间提高 7.5 倍，从而使复杂的 CFG 解码能够大规模实现。