实体 SkyWork-RM

SkyWork-RM

PulseAugur coverage of SkyWork-RM — every cluster mentioning SkyWork-RM across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_18293 · May 5 · 15:31

EvoLM 使语言模型能够在无外部监督的情况下自我改进

研究人员推出了一种新颖的语言模型后训练方法 EvoLM，该方法能够在无外部监督的情况下实现自我改进。该方法交替训练一个评分标准生成器（该生成器创建特定实例的评估标准）和一个策略（该策略使用这些标准作为奖励信号）。EvoLM 通过训练一个 Qwen3-8B 模型生成了超越 GPT-4.1 的评分标准，并使共同训练的策略在另一套基准上取得了高性能，从而证明了其有效性。