实体 CISPO

CISPO

PulseAugur coverage of CISPO — every cluster mentioning CISPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_104743 · Jun 21 · 16:14

新的RLVR方法ACPO增强了LLM的推理能力

研究人员分析了来自可验证奖励的强化学习（RLVR），以了解其对大型语言模型推理的影响。他们的理论分析表明，由每次rollout的梯度步数影响的离策略学习程度，通过影响重要性采样比率和裁剪行为，显著改变了更新动态。基于此，他们提出了自适应裁剪策略优化（ACPO），该方法动态调整裁剪边界。实验表明，ACPO在使用3B和7B模型进行的各种推理任务上优于DAPO和CISPO等现有方法。