PulseAugur
实时 19:49:58
实体 ACOER

ACOER

PulseAugur coverage of ACOER — every cluster mentioning ACOER across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_106828 ·

    新的ACOER方法稳定LLM的推理效率训练

    研究人员开发了一种名为ACOER(自适应仅正确效率奖励)的新方法,以稳定大型语言模型用于高效推理的训练。现有的GRPO(组相对策略优化)等方法经常导致奖励崩溃,降低模型性能。ACOER通过将简洁奖励隔离到正确答案,并防止通过动态归一化和惩罚调整进行过度压缩来解决此问题。实验表明,ACOER在提高准确性的同时显著减少了令牌生成。