实体 Reinforcement Learning from Verifiable Rewards

Reinforcement Learning from Verifiable Rewards

PulseAugur coverage of Reinforcement Learning from Verifiable Rewards — every cluster mentioning Reinforcement Learning from Verifiable Rewards across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 6

发布 · 30天

90 天内 0

论文 · 30天

90 天内 6

层级分布 · 90 天

主题

论文 6
模型发布 5
产品 1
其他 1

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

RESEARCH · CL_133110 · Jul 8 · 17:49

Agon 框架使用竞争性 AI 模型对推理进行评分

研究人员推出了一种新颖的竞争性强化学习框架 Agon，旨在提高 AI 模型的推理能力。与仅对最终答案评分的传统方法不同，Agon 将两个模型进行对抗，每个模型通过隐式方式对另一个模型的推理过程进行评分。这种竞争性设置通过面对日益强大的对手，迫使模型发展出更好的思考策略，从而带来显著的性能提升。在 DeepMath 数据集上使用 Qwen3 进行测试时，Agon 的 pass@1 率是标准 GRPO 的两倍，并且比未经训练的 Mixtu…
RESEARCH · CL_133122 · Jul 8 · 14:06

新的RLVP方法对真实世界代理的糟糕行为进行惩罚

研究人员推出了一种新颖的强化学习方法RLVP，专为从昂贵、不可逆转的交互中学习的真实世界代理而设计。与只关注结果的传统方法不同，RLVP在学习过程中纳入了对不良行为的惩罚，即使这些行为不会立即影响最终结果。该方法旨在通过确保代理遵守营业时间或身份验证协议等约束来提高可部署性，从而以显著减少的违规次数实现更高的任务成功率。
TOOL · CL_104743 · Jun 21 · 16:14

新的RLVR方法ACPO增强了LLM的推理能力

研究人员分析了来自可验证奖励的强化学习（RLVR），以了解其对大型语言模型推理的影响。他们的理论分析表明，由每次rollout的梯度步数影响的离策略学习程度，通过影响重要性采样比率和裁剪行为，显著改变了更新动态。基于此，他们提出了自适应裁剪策略优化（ACPO），该方法动态调整裁剪边界。实验表明，ACPO在使用3B和7B模型进行的各种推理任务上优于DAPO和CISPO等现有方法。
TOOL · CL_56077 · May 28 · 04:00

ZipRL框架增强了多轮代理任务中LLM的上下文压缩能力

研究人员推出ZipRL，一个专为可验证奖励强化学习（RLVR）设计的新型自适应上下文压缩框架。该框架旨在通过平衡信息保留和令牌效率，提高大型语言模型（LLMs）处理复杂、多轮代理任务的能力。ZipRL采用多粒度压缩机制和滞后响应重放（HRR）来增强训练信号。在五个代理任务上的评估表明，ZipRL显著优于现有方法，在Qwen3模型上实现了高达34.7%的提升，同时在扩展对话场景下保持了鲁棒性。
RESEARCH · CL_42476 · May 20 · 15:25

TimeSRL 使用强化学习微调的大模型进行可泛化的心理健康预测

研究人员开发了 TimeSRL，一个新颖的两阶段大模型框架，用于可泛化的时间序列行为建模，特别是在心理健康应用中。该框架首先将原始数据抽象为自然语言概念，然后仅从这些语义抽象中预测结果，旨在提高跨数据集的泛化能力。TimeSRL 使用组相对策略优化 (GRPO) 和可验证奖励强化学习 (RLVR) 进行优化，在预测焦虑和抑郁方面表现出最先进的性能，显著优于现有的机器学习和 LLM 基线。
RESEARCH · CL_41786 · May 20 · 05:20

新的强化学习方法解决大语言模型训练问题

两篇新研究论文介绍了使用强化学习改进大语言模型训练的方法。其中一篇论文通过引入诊断指标和称为AVSPO的自适应扩展，解决了组相对策略优化（GRPO）中的“优势崩溃”问题。另一篇论文提出了自适应组策略优化（AGPO），该方法使用组级统计数据动态调整剪辑和解码温度等训练参数，在多个基准测试中表现优于现有方法。

Agon 框架使用竞争性 AI 模型对推理进行评分

新的RLVP方法对真实世界代理的糟糕行为进行惩罚

新的RLVR方法ACPO增强了LLM的推理能力

ZipRL框架增强了多轮代理任务中LLM的上下文压缩能力

TimeSRL 使用强化学习微调的大模型进行可泛化的心理健康预测

新的强化学习方法解决大语言模型训练问题