实体 Reinforcement Learning with Verifiable Rewards (RLVR)

Reinforcement Learning with Verifiable Rewards (RLVR)

PulseAugur coverage of Reinforcement Learning with Verifiable Rewards (RLVR) — every cluster mentioning Reinforcement Learning with Verifiable Rewards (RLVR) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 13

发布 · 30天

90 天内 0

论文 · 30天

90 天内 13

层级分布 · 90 天

主题

论文 13
模型发布 9
安全 3
其他 1

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 13 条

RESEARCH · CL_141144 · Jul 13 · 12:56

新的SCOPE-RL框架优化LLM推理路径，提高准确性和效率

研究人员开发了SCOPE-RL，一个新颖的两阶段框架，旨在通过优化大型语言模型（LLM）的推理过程来增强其强化学习能力。该方法引入了更细粒度的奖励信号，在成功结果之前和之后都提供反馈，这有助于区分有效的推理路径和效率较低或有缺陷的路径。实验表明，与仅基于结果的标准强化学习相比，SCOPE-RL显著提高了准确性并减少了推理中使用的token数量。
TOOL · CL_111740 · Jun 26 · 04:00

研究人员发现LLM的RLVR训练会激活记忆捷径

研究人员在通过可验证奖励强化学习（RLVR）训练的大型语言模型（LLM）中发现了一种“困惑度悖论”。当模型在收到虚假或不正确奖励的情况下仍取得性能提升时，就会出现这种悖论，这表明模型从推理转向了记忆。该研究详细介绍了一个特定的“锚点-适配器”电路，该电路涉及中间层的函数式锚点和后几层的结构性适配器，从而促进了这种捷径。研究还表明，通过扩展该电路中的特定MLP键可以因果性地引导模型的行为，为识别和减轻RLVR微调模型中的数据污染提供了一种方法。
TOOL · CL_93150 · Jun 16 · 04:00

新的STRIDE框架通过可验证奖励增强LLM推理能力

研究人员推出STRIDE，一个用于可验证奖励强化学习（RLVR）的新颖框架，旨在增强大型语言模型的推理能力。与依赖最终答案正确性的先前方法不同，STRIDE采用细粒度方法，从可验证结果中获得监督。它对比成功和失败的轨迹，以估计每个n-gram战略模式的结果判别性偏好，从而在RL优化过程中进行更精确的信用分配。实验表明，STRIDE在各种模型和任务（包括视觉语言模型和基于代理的系统）中始终能提高推理性能。
TOOL · CL_79751 · Jun 9 · 04:00

新的RePO框架通过遗憾最小化增强大语言模型训练

研究人员引入了一个名为基于遗憾的偏好优化（RePO）的新框架，用于利用人类反馈训练大语言模型。RePO将过程从奖励最大化重新构建为遗憾最小化，基于预期结果和反事实比较来模拟人类偏好。在数学推理和人类偏好数据集上的实验表明，RePO提供了改进的性能和更好的人类对齐。
TOOL · CL_68395 · Jun 3 · 04:00

新的测试平台分析用于代码验证器训练的 RLVR

研究人员推出 Aletheia，一个旨在分析代码验证器训练的新测试平台。该研究侧重于可验证奖励强化学习 (RLVR) 管道中性能与成本之间的权衡。他们的发现表明，这些验证器的最佳训练策略取决于模型规模，不同的方法对于较小模型和较大模型而言效果不同。
TOOL · CL_65348 · Jun 2 · 04:00

新框架在训练前检测AI奖励验证器中的Bug

研究人员开发了一个新框架，用于识别可验证奖励强化学习（RLVR）系统中的Bug。该方法侧重于模糊测试作为奖励函数的验证器，以便在错误影响学习过程之前检测到它们。该框架生成对抗性输入来测试验证器，并记录误报和漏报等指标以突出潜在问题。
RESEARCH · CL_62293 · May 29 · 09:29

新框架通过原子任务合成扩展LLM编码能力

研究人员开发了一个名为原子分解与重组（ADR）的新框架，以解决在大型语言模型（LLM）中扩展具有可验证奖励的强化学习（RLVR）的局限性。ADR通过将可验证代码任务分解为原子元素，然后重新组合它们，来生成新颖且具有挑战性的任务。与现有方法相比，该方法在原创性、难度和多样性方面表现更优，显著提高了LLM在各个领域的编码能力。
TOOL · CL_72412 · May 29 · 00:00

新框架为大语言模型训练生成新颖代码任务

研究人员引入了原子分解与重组（ADR）框架，利用可验证奖励强化学习（RLVR）为大语言模型（LLMs）的训练生成具有挑战性且新颖的代码任务。该方法解决了现有数据合成技术的局限性，这些技术通常生成的任务不够困难，无法充分发挥LLMs的潜力。ADR将代码分解为原子元素，然后重新组合，从而提高了训练数据的原创性、难度和多样性，最终提升了LLMs在各个领域的编码能力。
TOOL · CL_56297 · May 28 · 04:00

Qwen3 LLM 通过词语联想游戏训练以提升创造力

研究人员开发了一种名为“可验证奖励强化学习”(RLVR) 的新颖方法，用于训练大型语言模型 (LLM) 的创造力，绕过了主观的人类判断。他们将该技术应用于不同规模的 Qwen3 模型（1.7B、4B 和 8B 参数），使用了词语联想游戏 Codenames。研究发现，像 8B 版本这样的大型模型在多个基准测试中表现出更高的创造力，而推理能力仅有轻微下降，而较小的模型则优先考虑推理的准确性而非创意联想。
TOOL · CL_51171 · May 26 · 04:00

F-GRPO 方法通过关注罕见轨迹来改进强化学习

研究人员开发了 F-GRPO，这是一种新颖的方法，通过解决训练过程中遗漏罕见正确轨迹的问题来改进强化学习。该方法引入了一个受 Focal loss 启发的、与难度相关的缩放系数，以降低对高成功率采样组的更新权重。该技术旨在防止策略过于关注常见解决方案而忽略频率较低但正确的路径。在包括 Qwen2.5-7B 在内的 LLM 上的实证测试表明，在不增加计算成本的情况下，数学通过率和分布外性能有了显著提高。
RESEARCH · CL_51028 · May 26 · 04:00

新研究探索用于LLM微调和预训练的高级掩码技术

研究人员正在探索新颖的掩码策略，以改进大型语言模型的微调和预训练。一种方法EKSFT在监督微调期间选择性地掩盖高熵或KL散度高的token，以保留模型的预训练分布并增强后续的强化学习探索。另一种方法侧重于掩码语言建模的熵感知掩码，识别信息量大和不确定的token，以提高训练效率并取得性能提升。第三种策略语义掩码专家策略优化（SMEPO）在专家指导的强化学习中使用细粒度的语义掩码，通过强制模型重建被掩盖的与奖励相关的信息来防止奖励黑客行…
RESEARCH · CL_44028 · May 21 · 16:45

新方法通过恢复近边界信号来稳定LLM推理

研究人员发现，可验证奖励强化学习（RLVR）中存在一个关键瓶颈，阻碍了LLM推理优化。研究指出，标准硬裁剪方法中的僵化裁剪决策是原因，它丢弃了裁剪阈值附近的宝贵信号。为解决此问题，他们提出了近边界随机恢复（NSR）方法，这是一种简单的修改，可以随机保留这些略微超出边界的token，从而提高各种模型大小和架构的训练稳定性和性能。
TOOL · CL_38296 · May 18 · 11:59

新的K2V框架提升了LLM在知识密集型领域的推理能力

研究人员推出了一种名为知识到验证（K2V）的新框架，旨在提高大型语言模型（LLM）在知识密集型领域的推理能力。K2V通过实现LLM推理过程的可验证性并自动化可验证数据的合成，扩展了具有可验证奖励的强化学习（RLVR）。实验表明，K2V在不影响通用能力的情况下增强了LLM在这些领域的推理能力，表明自动化数据合成与推理验证相结合是更广泛LLM应用的有前途的方法。

新的SCOPE-RL框架优化LLM推理路径，提高准确性和效率

研究人员发现LLM的RLVR训练会激活记忆捷径

新的STRIDE框架通过可验证奖励增强LLM推理能力

新的RePO框架通过遗憾最小化增强大语言模型训练

新的测试平台分析用于代码验证器训练的 RLVR

新框架在训练前检测AI奖励验证器中的Bug

新框架通过原子任务合成扩展LLM编码能力

新框架为大语言模型训练生成新颖代码任务

Qwen3 LLM 通过词语联想游戏训练以提升创造力

F-GRPO 方法通过关注罕见轨迹来改进强化学习

新研究探索用于LLM微调和预训练的高级掩码技术

新方法通过恢复近边界信号来稳定LLM推理

新的K2V框架提升了LLM在知识密集型领域的推理能力