PulseAugur
实时 03:41:47
实体 ResZero

ResZero

PulseAugur coverage of ResZero — every cluster mentioning ResZero across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08319 ·

    JURY-RL框架通过无标签的可验证奖励增强LLM推理能力

    研究人员开发了JURY-RL,一种新颖的无标签可验证奖励强化学习(RLVR)框架,旨在提高大型语言模型的推理能力。该方法将通过模型滚出提出答案与验证过程分开,并使用形式化验证器来确定奖励资格。当验证不确定时,采用一种称为ResZero的后备机制来维持训练稳定性。与现有的无标签方法相比,JURY-RL在数学推理任务上表现出优越的性能,并在代码生成和通用基准测试中展现出具有竞争力的迁移学习能力。