实体 PS-PPO

PS-PPO

PulseAugur coverage of PS-PPO — every cluster mentioning PS-PPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_117657 · Jun 30 · 04:00

新的PS-PPO方法降低了LLM的RLHF训练成本

研究人员引入了前缀采样近端策略优化（PS-PPO），这是一种旨在提高大型语言模型从人类反馈中强化学习（RLHF）计算效率的新方法。这种新方法通过在每个轨迹中采样一个截止点来解决现有无判别器方法效率低下的问题，从而仅通过采样前缀传播更新。该技术显著降低了训练计算量和峰值GPU内存使用量，同时在数学推理和RLHF基准测试的实验中保持了与当前基线相当的准确性。