PulseAugur
实时 13:51:37
实体 CISPO

CISPO

PulseAugur coverage of CISPO — every cluster mentioning CISPO across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_104743 ·

    新的RLVR方法ACPO增强了LLM的推理能力

    研究人员分析了来自可验证奖励的强化学习(RLVR),以了解其对大型语言模型推理的影响。他们的理论分析表明,由每次rollout的梯度步数影响的离策略学习程度,通过影响重要性采样比率和裁剪行为,显著改变了更新动态。基于此,他们提出了自适应裁剪策略优化(ACPO),该方法动态调整裁剪边界。实验表明,ACPO在使用3B和7B模型进行的各种推理任务上优于DAPO和CISPO等现有方法。