RLVR · PulseAugur

过程奖励将小型LLM数学推理准确率提升10%

一篇新的研究论文探讨了在可验证奖励强化学习（RLVR）中奖励粒度对小型语言模型进行数学推理的影响。研究发现，奖励中间步骤的过程级监督在GSM8K基准测试中的准确率显著优于仅奖励最终结果的奖励，准确率提高了近10个百分点。混合奖励结构通常倾向于过程监督，尽管一种过程权重较低的配置显示出一个显著的异常，其表现不如纯粹的结果监督。错误分析表明，基于过程的模型产生了更具结构一致性的推理痕迹，而基于结果的模型则更简洁但容易出现推导错误。

TOOL · CL_129077 · Jul 7 · 04:00

新的强化学习方法提高了语码转换语音识别的数据效率

研究人员开发了一种新颖的强化学习技术 RLVR，以提高语码转换自动语音识别 (ASR) 的音频语言模型的数据效率。该方法利用基于策略的组相对策略优化，并结合错误率和脚本保真度奖励来适应 Qwen2-Audio 等模型。实验表明，仅使用 10% 数据训练的 RLVR，其性能可以媲美使用完整数据集的监督微调，尤其在类型学上距离较远的语言对上表现出色，并将收益转移到人工录制的语音上。

RESEARCH · CL_119443 · Jun 30 · 12:33

新的相对惊奇度指数增强了 RLVR 中 LLM 的推理能力

研究人员引入了相对惊奇度指数 (RSI)，这是大型语言模型中用于可验证奖励强化学习 (RLVR) 的一项新指标。RSI 旨在通过同时考虑 Token 熵和概率来调和 RLVR 中的冲突方法。提出的 RSI 选择 (RSI-S) 方法在稳定的 RSI 区间内过滤 Token，去除冗余和不稳定的 Token。实证结果表明，RSI-S 在各种 Qwen2.5 模型规模的 AIME 和 AMC 等基准测试中提高了准确性。

TOOL · CL_117698 · Jun 30 · 04:00

新的迁移感知课程可提升多领域人工智能推理能力

研究人员开发了一种名为迁移感知课程（TAC）的新方法，以优化AI模型在多个域上的训练。TAC采用类似赌博机的方法，动态地优先训练对整体学习过程最有益的域。该方法重新利用了强化学习中的现有信号，如每域优势和投影梯度，以最小的计算开销估算跨域迁移能力。实验表明，与其它课程策略相比，TAC显著提高了Qwen3-1.7B和Llama3.2-3B等模型的准确性。

RESEARCH · CL_109577 · Jun 24 · 03:42

新的局部分支路由框架增强语言模型推理能力

研究人员开发了一个名为局部分支路由（LBR）的新框架，以在测试时扩展期间提高语言模型的推理能力。LBR 在 token 级别运行，扩展局部前瞻树并使用轻量级路由器选择最有希望的分支。该方法通过利用候选未来的隐藏状态，实现了更高效且可训练的扩展，在数学推理基准测试中通过提高 Pass@1 和 Pass@32 分数而优于现有方法。

RESEARCH · CL_107806 · Jun 23 · 07:52

新研究论文详述了大型语言模型中的“归类”效应

一篇新研究论文介绍了“归类”的概念，即次优或不正确的提示会降低大型语言模型（LLMs）的性能并导致模式崩溃。当模型重复对话历史中的错误信息或即使提供了正确示例也只收敛于有限的响应时，就会发生这种现象。研究表明，随着对话轮次的增加，“归类”效应会加剧，并提出了一种名为“带合成错误的RLVR”的缓解策略，该策略在不利环境下显著提高了模型性能。

TOOL · CL_106811 · Jun 22 · 07:16

研究表明，RLVR 在 LLM 推理方面优于 SFT

一篇新论文分析了为什么强化微调，特别是具有可验证奖励的强化学习（RLVR），在提高大型语言模型的推理能力方面优于监督微调（SFT）。通过将思维链推理建模为图路径查找问题，研究表明 SFT 在没有负面示例的情况下难以进行有效回溯。相比之下，RLVR 仅使用结果奖励就能学会有效回溯，从而在推理时间计算上产生指数级差异，并为困难决策提供更好的资源分配。

TOOL · CL_104743 · Jun 21 · 16:14

新的RLVR方法ACPO增强了LLM的推理能力

研究人员分析了来自可验证奖励的强化学习（RLVR），以了解其对大型语言模型推理的影响。他们的理论分析表明，由每次rollout的梯度步数影响的离策略学习程度，通过影响重要性采样比率和裁剪行为，显著改变了更新动态。基于此，他们提出了自适应裁剪策略优化（ACPO），该方法动态调整裁剪边界。实验表明，ACPO在使用3B和7B模型进行的各种推理任务上优于DAPO和CISPO等现有方法。

RESEARCH · CL_99522 · Jun 18 · 14:23

ELVA框架解决多模态检索中的“粒度盲”问题 · 已追踪2个来源

研究人员推出了一种新颖的框架ELVA，旨在解决利用多模态大语言模型（MLLMs）的通用多模态检索（UMR）系统中的“粒度盲”问题。粒度盲是指模型在查询中忽略细粒度信息，将所有负样本同等对待。ELVA采用基于规则的、具有可验证奖励的强化学习（RLVR）方法来优化负样本的排名，并增加正负样本之间的相似度差距。为了评估其有效性，开发了一个名为MRBench的新基准，ELVA在该基准上取得了最先进的成果，包括MRBench上的显著13.1%的提升。

RESEARCH · CL_96154 · Jun 17 · 04:00

RLVR 研究进展改进 LLM 推理和探索能力

两篇研究论文探讨了用于大型语言模型的可验证奖励强化学习 (RLVR) 的进展。第一篇论文从理论上分析了 RLVR 在推理任务上为何优于监督微调 (SFT)，将思维链推理建模为路径查找，并证明了 RLVR 学习高效回溯的能力。第二篇论文通过提出候选感知支持保留 (CaSP) 方法来解决 RLVR 中的探索崩溃问题，该方法在顶级候选对象上保持概率质量，以提高在各种基准测试和模型尺寸上的性能。

RESEARCH · CL_98026 · Jun 16 · 20:59

AI 研究：SFT 过度训练导致代码生成模型排名反转

一篇新的研究论文探讨了在强化学习与人类反馈（RLHF）用于代码生成模型时，监督微调（SFT）过度训练的现象。该研究以 Qwen2.5-Coder-3B 和 DeepSeek-Coder-6.7B 为例，发现 SFT 会压缩奖励的分布，导致排名反转，即最初有希望的检查点在 RLHF 后表现不佳。研究人员提出了一种使用预 RL 和早期 RL 熵监测的两阶段诊断方法，以识别并停止失败的运行，并指出标准的正则化技术未能解决该问题。

TOOL · CL_93283 · Jun 16 · 04:00

新研究将RLVR多样性崩溃视为过拟合

一篇新发表在arXiv上的研究论文探讨了“多样性崩溃”现象，这在强化学习与可验证奖励（RLVR）中出现，RLVR是一种用于增强大型语言模型推理的技术。该论文将此问题视为一种过拟合，即模型过度关注已解决的问题，导致高k Pass@k指标下降。研究人员提出了一种名为贝叶斯边界门控（BBG）的新方法来缓解这一问题，通过将优化从过拟合问题中引导开，并在推理基准测试中显示出改进。

RESEARCH · CL_91346 · Jun 15 · 00:00

新的强化学习方法增强大型语言模型训练的稳定性和效率 · 跟踪 7 个来源

研究人员开发了几种新方法来提高大型语言模型 (LLM) 中强化学习 (RL) 的稳定性和效率。STARE 通过根据惊奇度重新加权 token 级优势来解决策略熵崩溃问题，在推理基准测试中显示出更高的准确性。GrowthHacker 利用 LLM 代理自主优化离策略评估 (OPE) 代码，证明了改进 OPE 系统的可行性。ZPPO 将教师模型保留在提示中而不是策略梯度中，从而增强了小型学生模型的知识蒸馏。GD$^2$PO 通过过滤掉具有…

RESEARCH · CL_93241 · Jun 12 · 00:00

Nemotron 3 Ultra：开源 LLM 拥有百万级上下文、6倍吞吐量

研究人员发布了 Nemotron 3 Ultra，这是一个拥有 5500 亿参数的语言模型，它采用了混合 Mamba-Transformer 架构和专家混合（Mixture-of-Experts）方法。该模型在 20 万亿个 token 上进行了训练，拥有百万级 token 的上下文长度，并采用了 LatentMoE 和 Multi Token Prediction 等先进技术。与当前最先进的模型相比，Nemotron 3 Ultra…

RESEARCH · CL_91199 · Jun 11 · 00:00

在线策略蒸馏更新被发现稀疏且几何特征独特

一篇新的研究论文探讨了在线策略蒸馏（OPD）的机制，这是一种结合在线策略学生轨迹和密集教师监督的训练后技术。研究表明，OPD更新很小且在坐标上是稀疏的，主要影响前馈网络（FFN）模块。这种稀疏性是有功能的，因为仅训练识别出的子网络即可接近完全训练的性能。此外，研究表明，虽然更新在数值上是满秩的，但它们在频谱上是集中的，并且与原始权重的秩主奇异子空间不一致，这表明OPD保留了在线策略训练后编辑的独特几何特性，而不是作为标准的密集参数重写。

TOOL · CL_79735 · Jun 9 · 04:00

经RLVR增强的大型语言模型改进了远期海事预测

研究人员开发了一个名为RLVR的新框架，利用大型语言模型来改进远期海事轨迹和目的地预测。该方法将船舶轨迹转换为语义文本表示，使强化学习能够使大型语言模型与预测目标保持一致。实验表明，使用RLVR训练的大型语言模型在性能上显著优于现有的深度学习方法，尤其是在准确预测目的地方面，其中4B大型语言模型表现出最佳性能。

RESEARCH · CL_79475 · Jun 7 · 21:47

新的 sGPO 策略将 RLVR 训练计算量降低了 3 倍

研究人员开发了一种名为排序分组策略优化 (sGPO) 的新训练策略，以提高具有可验证奖励的强化学习 (RLVR) 的效率。该方法使用少量的推理计算来识别查询难度，从而更好地分配训练资源。通过分析查询并调整训练组大小，sGPO 可显著减少计算浪费，并将总训练计算量最多降低三倍，同时保持或提高性能。

RESEARCH · CL_79193 · Jun 6 · 06:22

AI代理被训练来导航长购物历史

研究人员开发了新的方法来训练AI代理理解长客户购物轨迹，这项任务以前受到大型语言模型中上下文窗口限制的制约。一种方法利用Bittensor网络上的“代理竞技场”为购物代理生成多样化、经过评判的训练数据，显著提高了它们在基准测试上的表现。另一种方法引入了一个框架，允许代理通过工具增强的交互自主地从外部文件中检索和解析长轨迹，从而有效地绕过了LLM的上下文限制，并在新的长上下文基准测试中展示了强大的性能。

TOOL · CL_70308 · Jun 4 · 04:00

新的GeoMin方法提高了半监督RLVR中的数据效率

研究人员推出了一种名为GeoMin的新方法，旨在提高半监督可验证奖励强化学习（RLVR）的数据效率。该方法对来自标记数据的全局特征分布进行建模，以识别正确和错误模型输出之间的差异。通过为自奖励信号建立可靠的先验，GeoMin旨在更好地利用未标记数据，其性能优于现有基线，甚至在标记样本少得多的情况下也能超越完全监督模型。

TOOL · CL_68473 · Jun 3 · 04:00

新的RLVR方法解决了大型语言模型遗忘已解决问题的问题

研究人员在可验证奖励强化学习（RLVR）中为大型语言模型识别出一种称为“正确集周转”的现象。此问题会导致模型在训练新问题时遗忘先前已解决的问题。为了解决这个问题，提出了一种新的名为“Remind”的保留感知审查机制。Remind旨在通过定期重新引入已解决的问题来明确优化获取和保留，并在各种基准和模态上展示了改进的性能。