实体 Reinforcement Learning with Verifiable Rewards

Reinforcement Learning with Verifiable Rewards

PulseAugur coverage of Reinforcement Learning with Verifiable Rewards — every cluster mentioning Reinforcement Learning with Verifiable Rewards across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 27

发布 · 30天

90 天内 0

论文 · 30天

90 天内 26

层级分布 · 90 天

research 10
tool 16
commentary 1

主题

论文 26
模型发布 22
安全 3
其他 3
产品 1

关系

used by Grpo 60%

情绪 · 30 天

13 天有情绪数据

最近 · 第 1/2 页 · 共 27 条

TOOL · CL_129050 · Jul 7 · 04:00

新AI训练方法在主观任务中不使用评分标准，而是计算错误

研究人员引入了隐式错误计数（IEC）方法，这是一种用于训练AI模型执行理想输出主观或不存在的任务的新颖方法。与关注正确性的传统评分标准奖励系统不同，IEC识别并量化错误，为响应的不同方面分配加权分数。该方法在虚拟试穿应用领域得到验证，该领域有多种可接受的输出，并在名为MDressBench的新基准上展示了优于现有基于评分标准的方法的性能。
TOOL · CL_128681 · Jul 7 · 04:00

大型语言模型通过强化学习掌握寻求证据的诊断推理

研究人员开发了一个新的框架，使用带有可验证奖励的强化学习（RLVR）来使大型语言模型（LLMs）能够执行寻求证据的诊断推理。该方法解决了当前LLMs信息不全的局限性，而是将医学诊断建模为一个迭代的调查过程。该框架包含一套新颖的奖励机制，以确保诊断的准确性和检查的一致性，并利用基于检索增强生成的检查模拟器（RAGES）来提供真实的临床证据。实验表明，该方法使LLMs能够充当自主助手，其性能可与更大的模型相媲美，同时RAGES在生成合理的…
RESEARCH · CL_128417 · Jul 6 · 17:59

新研究探索可控泛化失败和LLM的高效RL蒸馏

研究人员正在探索改进语言模型泛化和推理能力的新方法。一篇论文提出了一种构建模型的技术，通过在条件策略的混合物上进行训练来展示可控的泛化失败，这有助于进行对齐压力测试。另一项研究引入了直接策略内蒸馏（Direct-OPD）作为一种更有效的方式，将强化学习的收益从小型模型转移到大型模型，无需昂贵的奖励建模或在大型模型上进行直接RL。该方法已显示出显著的改进，例如在AIME 2024基准测试中提升了Qwen3-1.7B的性能。
RESEARCH · CL_123196 · Jul 2 · 07:50

新框架通过多角色评分标准生成增强LLM评估

研究人员推出了一种新颖的框架——多角色评分标准生成（MRRG），旨在改进对开放式任务中大型语言模型（LLM）的评估。与依赖单一评估者之前的方**法**不同，MRRG从多个互补角色中提取标准，以创建更全面、可审计的评分标准。这种方法旨在减轻LLM评判中的“维度盲点”，并在验证偏好和为强化学习提供更强的奖励信号方面表现出优越的性能。
TOOL · CL_119556 · Jul 1 · 04:00

新的KCR框架帮助LLM解决知识冲突，性能优于GPT-4o和GPT-5.1

研究人员开发了一个名为知识冲突推理（KCR）的新框架，旨在帮助大型语言模型（LLM）解决其训练数据中的矛盾。KCR将冲突信息分解为结构化的推理轨迹，使用文本和图的混合表示。该框架采用带有可验证奖励的强化学习（RLVR）范式来训练一个优先考虑逻辑一致性的策略。评估表明，一个增强了KCR的7B模型在裁决知识冲突方面，显著优于GPT-4o和GPT-5.1等专有模型。
RESEARCH · CL_119543 · Jun 30 · 15:27

新的正交初始化方法提高了RLVR训练稳定性

研究人员开发了一种新的方法，用于在具有可验证奖励的强化学习（RLVR）中初始化低秩适应（LoRA）矩阵。这种称为几何保持正交初始化（geometry-preserving orthonormal initialization）的方法旨在与标准LoRA以及PiSSA和MiLoRA等其他变体相比，提高训练稳定性和性能，这些变体在RLVR设置中可能表现不佳或不稳定。所提出的方法导致了新的RLPO和RLMO变体，得到了理论分析的支持，并通过在…
TOOL · CL_117698 · Jun 30 · 04:00

新的迁移感知课程可提升多领域人工智能推理能力

研究人员开发了一种名为迁移感知课程（TAC）的新方法，以优化AI模型在多个域上的训练。TAC采用类似赌博机的方法，动态地优先训练对整体学习过程最有益的域。该方法重新利用了强化学习中的现有信号，如每域优势和投影梯度，以最小的计算开销估算跨域迁移能力。实验表明，与其它课程策略相比，TAC显著提高了Qwen3-1.7B和Llama3.2-3B等模型的准确性。
COMMENTARY · CL_113898 · Jun 27 · 19:40

Neuralese 训练方法可能通过可验证奖励来改善 AI 对齐

“Neuralese”的概念，一种训练 AI 模型的方法，被探讨为一种可能对 AI 对齐有益的方法。该方法利用具有可验证奖励的强化学习 (RLVR) 来优化复杂的推理过程，或“思维链”，这对于先进的 AI 功能至关重要。RLVR 通过奖励可验证的正确输出来使模型能够实现超越人类水平的性能，尤其是在编码和形式数学等领域。
RESEARCH · CL_115288 · Jun 26 · 05:09

新研究论文详述用于复杂推理的课程学习

一篇题为《Learning to Reason with Curriculum II: Compositional Generalization》的新研究论文探讨了如何将复杂问题分解为更简单的子问题，从而实现更高效的学习。该研究侧重于模拟半自动机，证明与直接方法相比，基于课程的方法显著减少了所需的监督量。这种方法在监督微调和具有可验证奖励的强化学习等场景中显示出提高学习效率的潜力。
TOOL · CL_109945 · Jun 25 · 04:00

新的强化学习方法训练人工智能推理地质事件历史

研究人员开发了Geo-Strat-RL，这是一个旨在训练视觉语言模型（VLMs）推理地质事件历史的合成环境。该系统使用带有可验证奖励的强化学习（RLVR）来生成地层观测和相关的事件历史，然后由可执行验证器对其在年代顺序、事件身份、沉积和结构关系方面的准确性进行评分。研究表明，RLVR训练提高了VLMs的地质重建能力，从地层图中学到的推理能力可以迁移到合成地震表示上，而无需进行特定于地震的训练。
TOOL · CL_104718 · Jun 21 · 03:15

课程RL推动LLM推理能力超越基础模型限制

研究人员开发了一种新的课程强化学习（CRL）方法，旨在增强大型语言模型（LLM）在初始训练之外的推理能力。这种方法被称为边界感知CRL，它识别模型的当前推理能力极限，然后对处于或超出该极限的示例应用有针对性的指导。通过巩固这些新获得的推理模式，该方法旨在进一步提升LLM的性能。在Qwen、Llama和DeepSeek模型上的实验表明，在单次尝试性能（pass@1）和推理能力代理（pass@256）方面都有显著提高，优于标准的RLVR技术。
TOOL · CL_93283 · Jun 16 · 04:00

新研究将RLVR多样性崩溃视为过拟合

一篇新发表在arXiv上的研究论文探讨了“多样性崩溃”现象，这在强化学习与可验证奖励（RLVR）中出现，RLVR是一种用于增强大型语言模型推理的技术。该论文将此问题视为一种过拟合，即模型过度关注已解决的问题，导致高k Pass@k指标下降。研究人员提出了一种名为贝叶斯边界门控（BBG）的新方法来缓解这一问题，通过将优化从过拟合问题中引导开，并在推理基准测试中显示出改进。
TOOL · CL_91404 · Jun 15 · 04:00

新的强化学习框架提升视频3D场景理解能力

研究人员推出3D-RFT，一个将带可验证奖励的强化学习（RLVR）应用于视频3D场景理解的新框架。与使用间接优化的传统监督微调（SFT）方法不同，3D-RFT通过组相对策略优化（GRPO）方法，使用3D IoU和F1-Score等特定任务指标直接优化模型。该方法已展示出最先进的性能，在3D视频检测、视觉定位和空间推理基准测试中优于更大的模型。
RESEARCH · CL_91209 · Jun 12 · 17:54

新的CORA方法弥合了多模态AI中的思维-答案差距

研究人员推出了一种新方法CORA，用于解决多模态大型视觉语言模型（LVLMs）中存在的思维-答案不一致问题。这种不一致性，即推理过程在语义上与最终答案不匹配，在训练和推理过程中一直存在。CORA利用一致性奖励模型和混合奖励优势分解来提高任务性能并确保更忠实的推理过程。
TOOL · CL_82523 · Jun 10 · 04:00

TD-Grokking框架使LLM能够从零奖励问题中学习

研究人员引入了TD-Grokking，一个旨在使大型语言模型能够从零奖励问题中学习的新框架。该方法将复杂、棘手的问题递归地分解为更小、可验证的子问题。这些子问题形成一个层次结构，可解的叶节点为模型改进提供必要的优化信号。在数学和医学任务上的评估表明，TD-Grokking的性能显著优于现有的基线方法。
RESEARCH · CL_79524 · Jun 8 · 11:57

Reasoning Arena 通过追踪锦标赛提升 LLM 推理能力

研究人员开发了“Reasoning Arena”，一个旨在增强大型语言模型推理能力的新框架。该系统解决了可验证奖励强化学习中的一个限制，即不同推理轨迹的相同奖励导致梯度信号缺失。Reasoning Arena 通过使用追踪锦标赛进行一对一比较，将这些信息量不足的奖励组转化为有价值的训练数据，从而产生更丰富的相对奖励信号。该方法提高了训练效率和基准测试性能，平均比标准 RLVR 性能高出 7.6%。
TOOL · CL_62863 · Jun 1 · 04:00

小型语言模型通过RLVR改进代码生成

研究人员探索了使用带有可验证奖励的强化学习（RLVR）来增强小型语言模型代码生成的能力。他们的研究重点是使用Qwen3-0.6B和Llama3.2-1B模型进行Python代码生成，并使用LoRA进行了微调。实验表明，RLVR可以提高功能的正确性，其中包含单元测试结果和静态分析惩罚的组合奖励产生了最稳定的结果，并减轻了对较短、功能较少代码的偏见。
RESEARCH · CL_51033 · May 26 · 04:00

新的RLVR方法提高了LLM的训练效率和数据选择

研究人员正在开发新的方法来提高用于训练大型语言模型（LLM）的可验证奖励强化学习（RLVR）的效率和有效性。两篇论文介绍了新颖的数据选择技术：SHIFT，它使用推理时的隐藏状态动态来选择实例而无需事先训练；IRDS，它采用与验证器耦合的稀疏自动编码器来进行可审计的实例选择。另一项研究调查了RLVR中计算与监督质量之间的权衡，发现验证器质量，特别是减少假阴性，比单独扩展计算更关键。最后，提出了一种时间调度方法来优化随时间的学习信号，从而…
RESEARCH · CL_50951 · May 26 · 04:00

新研究推进机器人和LLM的策略优化

研究人员引入了几种新方法来增强强化学习中的策略优化，特别是针对涉及机器人和大型语言模型（LLM）的复杂任务。MODIP旨在通过使用世界模型来指导适应，从而高效地微调机器人学习中的扩散策略，与标准的模仿学习相比，提高了稳定性和性能。N-GRPO和T2-GRPO分别侧重于通过采用新颖的嵌入层混合和多视域奖励策略来改进LLM在数学推理和护理代理等任务中的探索和奖励分配。此外，CATPO和GenPO++通过改进基于树的方法和生成策略来提高训练…
TOOL · CL_48817 · May 25 · 04:00

新的VI-CuRL框架在无外部验证器的情况下稳定大型语言模型推理

研究人员开发了VI-CuRL，一个旨在稳定大型语言模型强化学习的新框架，无需依赖外部验证器。该方法利用模型内部的置信度来指导训练，有效减少方差并防止常见的训练崩溃。VI-CuRL在各种推理基准测试中已显示出比现有方法更高的稳定性和性能。

新AI训练方法在主观任务中不使用评分标准，而是计算错误

大型语言模型通过强化学习掌握寻求证据的诊断推理

新研究探索可控泛化失败和LLM的高效RL蒸馏

新框架通过多角色评分标准生成增强LLM评估

新的KCR框架帮助LLM解决知识冲突，性能优于GPT-4o和GPT-5.1

新的正交初始化方法提高了RLVR训练稳定性

新的迁移感知课程可提升多领域人工智能推理能力

Neuralese 训练方法可能通过可验证奖励来改善 AI 对齐

新研究论文详述用于复杂推理的课程学习

新的强化学习方法训练人工智能推理地质事件历史

课程RL推动LLM推理能力超越基础模型限制

新研究将RLVR多样性崩溃视为过拟合

新的强化学习框架提升视频3D场景理解能力

新的CORA方法弥合了多模态AI中的思维-答案差距

TD-Grokking框架使LLM能够从零奖励问题中学习

Reasoning Arena 通过追踪锦标赛提升 LLM 推理能力

小型语言模型通过RLVR改进代码生成

新的RLVR方法提高了LLM的训练效率和数据选择

新研究推进机器人和LLM的策略优化

新的VI-CuRL框架在无外部验证器的情况下稳定大型语言模型推理