On-Policy Distillation

新研究分析SFT、RL和OPD如何塑造LLM推理置信度

一篇新研究论文提出了一个三阶段框架，用于分析监督微调（SFT）、强化学习（RL）和在线策略蒸馏（OPD）如何影响大型语言模型在推理过程中的置信度校准。该研究在数学推理基准上进行，发现OPD对于预推理置信度最有效，SFT在提前停止方面表现最佳，而RL为答案聚合提供了最可靠的信号。研究人员还开发了PosConf，一种位置感知置信度策略，通过利用来自可靠相对位置区间的置信度信号，改进了RL答案聚合和OPD提前停止。

TOOL · CL_154150 · Jul 21 · 04:00

新的Med-OPD框架改进了医学视觉-语言模型

研究人员开发了Med-OPD，一个旨在增强医学视觉-语言模型（Med-VLMs）的新型训练后框架。该方法将策略内蒸馏与一种称为医学证据优势（MEA）的新监督信号相结合。MEA通过比较原始和降级成像条件下的似然性，将模型的注意力集中在对诊断至关重要的视觉证据上。在OmniMedVQA数据集上的实验表明，Med-OPD在CT和MRI模态上显著优于标准的监督微调和基本的策略内蒸馏。

RESEARCH · CL_151917 · Jul 19 · 00:00

新方法通过改进的强化学习和数据选择来增强大语言模型（LLM）的后训练

研究人员开发了改进大语言模型（LLM）后训练的新方法。蒸馏强化学习（Distilled RL）将教师监督整合到强化学习目标中，提供细粒度指导，实现更有效的知识转移，性能优于标准强化学习和同策略蒸馏。GradAlign 提供了一种用于大语言模型（LLM）强化学习的梯度对齐数据选择方法，利用验证集优先处理与策略梯度对齐的训练问题，从而实现更稳定的训练和改进的性能。RL-Struct 是一个轻量级框架，使用梯度正则化策略优化来可靠地生成大语…

RESEARCH · CL_147463 · Jul 16 · 06:25

新的对比策略优化方法改进了强化学习

研究人员推出了一种新颖的强化学习方法——对比策略优化（CPO），该方法具有可验证的奖励。CPO 利用生成文本分布之间的令牌级对比差异来更有效地塑造优势，解决了传统基于熵的方法的局限性。这种方法可靠地指示令牌的正确性，并能解决零优势问题等问题，在实验中优于现有的 RLVR 技术。

TOOL · CL_152483 · Jul 16 · 00:00

新的对比策略优化框架增强了强化学习

研究人员推出了一种新颖的强化学习框架——对比策略优化（CPO），该框架具有可验证的奖励。CPO利用参考引导生成分布和标准生成分布之间的令牌级对比差异来塑造优势，提供了比传统基于熵的方法更可靠的正确性信号。该方法在各种基准测试中表现出色，优于现有的RLVR技术，同时保持了泛化能力。

TOOL · CL_145670 · Jul 15 · 12:12

新框架分析大型语言模型训练方法如何影响推理置信度

研究人员开发了一个新的三阶段框架，用于分析监督微调（SFT）、强化学习（RL）和在线策略蒸馏（OPD）如何影响大型语言模型在推理过程中的置信度。研究发现，OPD对预推理置信度最有效，SFT在早期终止信号方面表现出色，而RL为答案聚合提供了可靠的追踪级别置信度。引入了一种新颖的位置感知置信策略PosConf，该策略仅利用来自可靠相对位置区间的置信信号，从而提高了答案聚合和早期停止的性能。

RESEARCH · CL_141172 · Jul 12 · 15:24

新研究解决了大型语言模型在线策略蒸馏中的病理问题

研究人员已识别出在线策略蒸馏（OPD）中的两个关键病理问题，并提出了解决方案。OPD是大型语言模型（LLM）后训练中使用的一种技术。第一个病理问题是学生-教师模型不匹配，当教师模型和学生模型之间存在显著差距时，会导致指导失准。第二个是长度利用，当模型学会操纵响应长度以获得更高奖励时出现。为解决这些问题，引入了优势裁剪、对数尺度压缩和自适应双视角OPD（AD-OPSD）等新方法来调节蒸馏信号并保留模型的原生推理能力，在基准测试中显示出更高的准确性。

TOOL · CL_129222 · Jul 7 · 04:00

新的H-OPD框架通过动态教师仲裁改进多模态推理

研究人员推出了一种新颖的多模态推理框架H-OPD，它改进了按策略蒸馏（OPD）。与之前使用静态教师路由的方法不同，H-OPD采用了一种置信度感知、令牌级别的仲裁机制。这使得在学生轨迹中动态组合视觉-语言和纯文本教师成为可能，从而能够更好地利用视觉语义和抽象推理。在11个基准测试上的广泛评估证明了H-OPD的卓越性能。

TOOL · CL_128942 · Jul 7 · 04:00

新的TOP-D方法稳定AI数学推理训练

研究人员推出了一种名为Trust Region Policy Distillation (TOP-D)的新颖方法，通过创建一个动态的近端教师来稳定on-policy distillation (OPD)的训练。该方法具有理论基础，提供了正式的全局收敛分析和单调改进界限，以确保可靠的训练动态。在实践中，TOP-D在数学推理任务的训练稳定性、样本效率和性能方面均取得了显著改进，且没有引入额外的计算开销。

RESEARCH · CL_128357 · Jul 6 · 07:56

新方法增强在线策略蒸馏以进行AI模型训练 · 已追踪6个来源

研究人员正在开发新的在线策略蒸馏方法，这是一种通过让较小的AI模型学习较大、能力更强的模型的输出来训练这些较小模型的技术。Apple Machine Learning Research 引入了一个诊断框架，用于分析在线策略蒸馏在何处以及为何有效，发现该信号在学生模型不正确的输出时更有益。同时，Veto 和 RG-OPD 等新方法通过重新构建蒸馏目标或使用验证器反馈来过滤不可靠的教师信号，旨在稳定训练。此外，ReOPD 提供了一种离环境…

TOOL · CL_139335 · Jul 6 · 00:00

Trust Region Policy Distillation 增强了 AI 训练的稳定性

研究人员推出了一种名为 Trust Region Policy Distillation (TOP-D) 的新方法，旨在稳定通常不稳定的 On-Policy Distillation (OPD) 训练过程。TOP-D 通过动态创建一个近端教师模型来实现这一点，该模型理论上可以控制梯度方差并提供正式的全局收敛分析。在实践中，TOP-D 在不引入任何额外计算开销的情况下，在训练稳定性、样本效率和数学推理任务的性能方面都取得了改进。

TOOL · CL_129590 · Jun 30 · 17:22

新的 GR2 框架增强了工业推荐系统中的 LLM 重排能力

研究人员开发了 GR2，一个生成式推理重排器（Generative Reasoning Re-Ranker）框架，旨在增强工业推荐系统。GR2 通过整合语义 ID、从更强模型中提炼的推理轨迹以及具有可验证奖励的强化学习，解决了当前 LLM 在重排应用中的局限性。该框架包含一个上下文压缩器和 On-Policy Distillation，以提高训练效率和实现低延迟服务，并在关键推荐指标上取得了显著改进。

RESEARCH · CL_109866 · Jun 24 · 00:00

V-Zero框架支持无标签视觉推理，提高训练速度

研究人员推出了一种新颖的细粒度视觉推理框架V-Zero，该框架无需标注的答案标签即可运行。该方法利用对比证据门控来增强模型识别任务相关视觉证据和将推理 grounding 到特定图像区域的能力。V-Zero通过将问题相关的图像裁剪与负面视觉视图配对以评估和门控蒸馏，实现了显著更快的训练时间，据报道比有监督微调快5倍以上，比强化学习基线快10倍以上。

RESEARCH · CL_117125 · Jun 23 · 00:00

新研究挑战LLM的同策略自蒸馏，提出改进方法 · 跟踪10个来源

近期研究论文探讨了同策略自蒸馏（OPSD）在训练大型语言模型（LLMs）方面的局限性和潜在改进。研究表明，标准的OPSD可能导致死记硬背捷径并阻碍泛化能力，尤其是在长链推理任务中。Purified OPSD和DemoPSD等新框架旨在通过优化监督信号来解决这些问题，以防止过拟合并保留模型的推理能力。其他研究强调，虽然OPSD可以加速专业化，但它可能不足以支持持续学习，并且与其他强化学习方法相比，它可能表现出更强的遗忘效应。

RESEARCH · CL_104687 · Jun 21 · 17:20

新框架统一图像生成能力；研究解决蒸馏挑战

研究人员推出了一种新颖的 on-policy 生成场蒸馏框架 DanceOPD，旨在将文本到图像、局部编辑和全局编辑等多种图像生成能力统一到单个模型中。该框架解决了将这些能力结合起来可能导致性能下降的常见问题。DanceOPD 将样本路由到特定的能力场，并使用速度 MSE 目标进行训练，从而在保持整体生成质量的同时组合专家能力。此外，其他研究还探索了 on-policy 蒸馏技术，包括缓解输出多样性减少和解决长推理任务中的位置偏差的方…

RESEARCH · CL_100172 · Jun 19 · 04:00

新的强化学习框架使用语言进行自适应指导；调查涵盖大语言模型蒸馏技术 · 跟踪 2 个来源

研究人员推出了一种名为“带语言指令的分层强化学习”（HRLLI）的新型框架，该框架通过在决策过程中动态选择相关的自然语言指导来提高强化学习的效率。这种被称为“选择即行动”（Select-to-Act）的方法将指令分解为特定阶段的元素，使高层策略能够指导低层策略进行自适应动作选择。在RTFM基准上的实验表明，HRLLI优于现有的指令条件强化学习基线。此外，一项调查回顾了大语言模型的“同策略蒸馏”（OPD）技术，解决了将前沿能力转移到更小…

RESEARCH · CL_99663 · Jun 17 · 23:58

新的SAGE-OPD框架增强了多轮LLM智能体训练

研究人员开发了SAGE-OPD，一种用于多轮按策略蒸馏（OPD）的新型框架，旨在改进语言模型智能体的训练。与之前专注于单轮设置的方法不同，SAGE-OPD通过基于教师判断和置信度选择性地干预学生响应，解决了多轮交互中累积错误的问题。实验表明，SAGE-OPD取得了显著的改进，包括在ALFWorld基准测试上成功率相对提高高达13.3%。

RESEARCH · CL_91199 · Jun 11 · 00:00

在线策略蒸馏更新被发现稀疏且几何特征独特

一篇新的研究论文探讨了在线策略蒸馏（OPD）的机制，这是一种结合在线策略学生轨迹和密集教师监督的训练后技术。研究表明，OPD更新很小且在坐标上是稀疏的，主要影响前馈网络（FFN）模块。这种稀疏性是有功能的，因为仅训练识别出的子网络即可接近完全训练的性能。此外，研究表明，虽然更新在数值上是满秩的，但它们在频谱上是集中的，并且与原始权重的秩主奇异子空间不一致，这表明OPD保留了在线策略训练后编辑的独特几何特性，而不是作为标准的密集参数重写。

TOOL · CL_87108 · Jun 8 · 00:00

新的蒸馏方法提升AI模型的数学推理能力

研究人员开发了符号门控策略内蒸馏（SG-OPD），这是策略内蒸馏技术的一项进展。该新方法引入了一个二元验证器来过滤教师信号，从而提高了数学推理任务的性能。SG-OPD通过确保学生和教师轨迹之间更好的对齐以及在token级别更可靠的教师偏好，解决了标准策略内蒸馏的局限性。实验表明，SG-OPD在数学推理基准测试中，在每样本级别平均比标准策略内蒸馏高出1.98%，在每问题级别高出7.50%，取得了显著的提升。

RESEARCH · CL_79119 · Jun 7 · 00:00

新的轨迹精炼蒸馏改进了LLM训练

研究人员推出了一种新的方法——轨迹精炼蒸馏（TRD），以改进大型语言模型的训练后过程。TRD解决了在线蒸馏中的“前缀失败”问题，该问题会导致密集型逐令牌监督产生碎片化梯度。通过在蒸馏前对轨迹级别的学生模型回放进行校正，TRD缓解了这一问题并增强了探索。该方法在各种基准测试和模型规模上都显示出了一致的性能提升。