PulseAugur
实时 03:57:16
实体 Reinforcement Learning with Verifiable Rewards (RLVR)

Reinforcement Learning with Verifiable Rewards (RLVR)

PulseAugur coverage of Reinforcement Learning with Verifiable Rewards (RLVR) — every cluster mentioning Reinforcement Learning with Verifiable Rewards (RLVR) across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_44028 ·

    新方法通过恢复近边界信号来稳定LLM推理

    研究人员发现,可验证奖励强化学习(RLVR)中存在一个关键瓶颈,阻碍了LLM推理优化。研究指出,标准硬裁剪方法中的僵化裁剪决策是原因,它丢弃了裁剪阈值附近的宝贵信号。为解决此问题,他们提出了近边界随机恢复(NSR)方法,这是一种简单的修改,可以随机保留这些略微超出边界的token,从而提高各种模型大小和架构的训练稳定性和性能。

  2. TOOL · CL_38296 ·

    新的K2V框架提升了LLM在知识密集型领域的推理能力

    研究人员推出了一种名为知识到验证(K2V)的新框架,旨在提高大型语言模型(LLM)在知识密集型领域的推理能力。K2V通过实现LLM推理过程的可验证性并自动化可验证数据的合成,扩展了具有可验证奖励的强化学习(RLVR)。实验表明,K2V在不影响通用能力的情况下增强了LLM在这些领域的推理能力,表明自动化数据合成与推理验证相结合是更广泛LLM应用的有前途的方法。