实体 ACOER

ACOER

PulseAugur coverage of ACOER — every cluster mentioning ACOER across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_106828 · Jun 21 · 23:27

新的ACOER方法稳定LLM的推理效率训练

研究人员开发了一种名为ACOER（自适应仅正确效率奖励）的新方法，以稳定大型语言模型用于高效推理的训练。现有的GRPO（组相对策略优化）等方法经常导致奖励崩溃，降低模型性能。ACOER通过将简洁奖励隔离到正确答案，并防止通过动态归一化和惩罚调整进行过度压缩来解决此问题。实验表明，ACOER在提高准确性的同时显著减少了令牌生成。