DAPO++ · PulseAugur

新的UP优化方法通过稳定探索增强LLM推理能力

研究人员推出了一种名为无界正非对称优化（Unbounded Positive Asymmetric Optimization, UP）的新型目标函数，旨在改进大型语言模型（LLMs）的强化学习（RL）。UP通过重构优化过程来解决标准RL算法固有的探索-稳定性困境。这种方法允许正优势梯度无裁剪，从而最大化探索，同时保持对负优势的裁剪以防止不稳定性。实验表明，UP在各种RL算法、模型架构和训练模式下都能增强探索和推理准确性。

TOOL · CL_128794 · Jul 7 · 04:00

新的ACPO框架增强了大型语言模型的强化学习能力

研究人员推出了一种名为自适应信用策略优化（ACPO）的新框架，旨在改进大型语言模型强化学习中的信用分配。ACPO通过不对称地调整策略更新来解决稀疏奖励的挑战，重点关注成功试验中的不确定决策和失败试验中的过度自信的token。该方法旨在在保持策略梯度方向的同时，提高在AIME 2025和HumanEvalPro等基准测试上的性能，优于DAPO、GTPO和SAPO等现有方法。

TOOL · CL_121137 · Jun 30 · 00:00

新恒等式统一三种语言模型训练方法

一篇新论文介绍了分组标准差恒等式（Group-Standard-Deviation Identity），证明了三种流行的语言模型训练方法——GRPO、Dr. GRPO 和 DAPO——本质上是对单个参数的调整：采样答案分歧的标准差。该恒等式揭示了标准差直接与训练更新的大小相关，一致同意不产生学习，而答案分歧则提供最重要的训练信号。研究通过 Big-Math 数据集和受控训练运行验证了这些发现，强调了该参数在决定学习效果和重点方面的关键作用。

TOOL · CL_105159 · Jun 22 · 11:51

新的CFPO框架增强了LVLM的多模态推理能力

研究人员推出了一种名为逆事实策略优化（CFPO）的新框架，旨在提高大型视觉语言模型（LVLM）的多模态推理能力。CFPO通过强制视觉感知与文本推理之间的因果一致性来解决基础性失败和幻觉漂移问题。该方法与GRPO和DAPO等现有算法集成，无需额外的监督或奖励模型。实验表明，CFPO显著提高了推理保真度，优于标准的RL基线和当前最先进的感知感知方法。

TOOL · CL_104743 · Jun 21 · 16:14

新的RLVR方法ACPO增强了LLM的推理能力

研究人员分析了来自可验证奖励的强化学习（RLVR），以了解其对大型语言模型推理的影响。他们的理论分析表明，由每次rollout的梯度步数影响的离策略学习程度，通过影响重要性采样比率和裁剪行为，显著改变了更新动态。基于此，他们提出了自适应裁剪策略优化（ACPO），该方法动态调整裁剪边界。实验表明，ACPO在使用3B和7B模型进行的各种推理任务上优于DAPO和CISPO等现有方法。

TOOL · CL_93414 · Jun 16 · 04:00

新的DUPL方法提升了LLM的多模态推理能力

研究人员推出了一种新颖的策略学习方法DUPL，旨在增强大型语言模型（LLMs）的多模态推理能力。该方法专门解决了区分复杂推理产生的不确定性与视觉感知模糊性之间的挑战。通过量化和利用感知不确定性和输出不确定性，DUPL指导策略更新，将学习重点放在高模糊性区域，从而改善了目标探索。该方法在各种多模态推理基准测试中显示出显著的准确性提升，优于现有方法，并展示了在不同算法和架构上的广泛适用性。

RESEARCH · CL_91346 · Jun 15 · 00:00

新的强化学习方法增强大型语言模型训练的稳定性和效率 · 跟踪 7 个来源

研究人员开发了几种新方法来提高大型语言模型 (LLM) 中强化学习 (RL) 的稳定性和效率。STARE 通过根据惊奇度重新加权 token 级优势来解决策略熵崩溃问题，在推理基准测试中显示出更高的准确性。GrowthHacker 利用 LLM 代理自主优化离策略评估 (OPE) 代码，证明了改进 OPE 系统的可行性。ZPPO 将教师模型保留在提示中而不是策略梯度中，从而增强了小型学生模型的知识蒸馏。GD$^2$PO 通过过滤掉具有…

RESEARCH · CL_65616 · Jun 1 · 13:20

新的SAGC方法提高了同步强化学习训练效率

研究人员开发了一种名为感知掉队者组控制（SAGC）的新方法，以提高同步在线强化学习的效率。SAGC在运行过程中动态调整训练组大小，以减轻由“掉队者”（即比其他回放花费时间明显更长的单个回放）造成的延迟。这种方法旨在平衡大型训练组的优势与同步成本，从而在下游任务中实现更快的训练和具有竞争力的或改进的模型性能。

RESEARCH · CL_53799 · May 27 · 04:00

新的RLVR方法通过首个Token多样化和信用分配来增强LLM推理能力

两篇新的研究论文探讨了改进用于训练推理模型的RLVR（带可验证奖励的强化学习）的方法。第一篇论文介绍了REFT（首个Token多样化的Rollout探索），一种通过关注推理标记后的首个Token来使Rollout多样化的技术，从而在各种模型规模和难度级别上提高了性能。第二篇论文提出了HAPO（事后追溯感知策略优化），该方法通过基于奖励极性和Token熵分解Token更新来分析Token更新，表明持续的推理收益集中在高熵象限，并在数学推…

TOOL · CL_53717 · May 27 · 04:00

新框架优化大语言模型训练后强化学习

一个名为 Pilot-Commit 的新框架已被开发出来，用于优化大型语言模型在训练后阶段使用强化学习的计算资源分配。该方法通过智能估计提示信息量并优先处理高杠杆提示，从而跳过那些学习信号可忽略不计的提示，解决了计算成本浪费的问题。在参数量从 1.5B 到 14B 的模型上进行的数学推理基准测试实验表明，与 GRPO 和 DAPO 等现有方法相比，Pilot-Commit 可以显著更快地达到目标准确率，累积部署次数减少高达 4.0 倍。

RESEARCH · CL_51033 · May 26 · 04:00

新的RLVR方法提高了LLM的训练效率和数据选择

研究人员正在开发新的方法来提高用于训练大型语言模型（LLM）的可验证奖励强化学习（RLVR）的效率和有效性。两篇论文介绍了新颖的数据选择技术：SHIFT，它使用推理时的隐藏状态动态来选择实例而无需事先训练；IRDS，它采用与验证器耦合的稀疏自动编码器来进行可审计的实例选择。另一项研究调查了RLVR中计算与监督质量之间的权衡，发现验证器质量，特别是减少假阴性，比单独扩展计算更关键。最后，提出了一种时间调度方法来优化随时间的学习信号，从而…

TOOL · CL_44357 · May 22 · 15:57

Anyscale 推出技能以自动化 LLM 后续训练运行

Anyscale 推出了新的 Anyscale Agent Skill，旨在简化和自动化 LLM 后续训练运行的生成过程。该技能可根据用户模型、数据集和目标，帮助用户选择最合适的后续训练方法，例如 SFT、CPT、DPO 或 RLVR。然后，它会为 LLaMA-Factory 和 Ray Train 等流行框架生成配置文件，并准备好在 Anyscale Jobs 上进行部署。

RESEARCH · CL_44028 · May 21 · 16:45

新方法通过恢复近边界信号来稳定LLM推理

研究人员发现，可验证奖励强化学习（RLVR）中存在一个关键瓶颈，阻碍了LLM推理优化。研究指出，标准硬裁剪方法中的僵化裁剪决策是原因，它丢弃了裁剪阈值附近的宝贵信号。为解决此问题，他们提出了近边界随机恢复（NSR）方法，这是一种简单的修改，可以随机保留这些略微超出边界的token，从而提高各种模型大小和架构的训练稳定性和性能。

TOOL · CL_35221 · May 17 · 03:42

新 PRISM 框架纠正多模态大模型训练中的 SFT 缺陷

来自香港科技大学（广州）等机构的新研究揭示了多模态大语言模型（MLLMs）常见训练范式中的一个关键缺陷。监督微调（SFT）后进行强化学习（RL）的标准方法，可能会通过引入分布漂移而无意中损害模型性能，导致模型表面上模仿正确答案而非真正理解它们。这个问题在更强的模型中尤为突出，因为 SFT 可能会在 RL 开始之前就降低模型能力。提出的 PRISM 框架通过在 SFT 和 RL 之间插入一个分布对齐阶段来解决这个问题，使用一种新颖的混合…

RESEARCH · CL_09211 · Apr 29 · 15:01

IBM 发布 Granite 4.1 LLMs，支持 512K 上下文并采用 Apache 2.0 许可

IBM 发布了 Granite 4.1 系列大型语言模型，包含 3B、8B 和 30B 参数版本。这些模型通过包含将上下文窗口扩展到 512K 标记的五阶段预训练过程，在约 15 万亿个标记上进行了训练。进一步的优化包括在精选数据上进行监督微调和强化学习。值得注意的是，8B 指令模型取得了与更大的 Granite 4.0 MoE 模型相当的性能，并且所有 Granite 4.1 模型均根据 Apache 2.0 许可提供。