PulseAugur
实时 09:58:54
实体 SkyWork-RM

SkyWork-RM

PulseAugur coverage of SkyWork-RM — every cluster mentioning SkyWork-RM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_18293 ·

    EvoLM 使语言模型能够在无外部监督的情况下自我改进

    研究人员推出了一种新颖的语言模型后训练方法 EvoLM,该方法能够在无外部监督的情况下实现自我改进。该方法交替训练一个评分标准生成器(该生成器创建特定实例的评估标准)和一个策略(该策略使用这些标准作为奖励信号)。EvoLM 通过训练一个 Qwen3-8B 模型生成了超越 GPT-4.1 的评分标准,并使共同训练的策略在另一套基准上取得了高性能,从而证明了其有效性。