Direct Preference Optimization

新方法高效评估用于 LLM 对齐的偏好数据集

研究人员开发了一种新方法，用于高效评估用于对齐大型语言模型 (LLM) 的偏好数据集。所提出的基于 Shapley 的方法，称为顺序偏好优化 (SPO)，显著降低了与传统 Shapley 值计算相关的计算成本。SPO 通过在单个数据集上顺序训练模型并在推理时重建联盟策略来实现这一点，从而将所需的对齐次数从指数级降低到线性级。该方法允许更实际地评估每个偏好数据集对 LLM 对齐的贡献。

TOOL · CL_123500 · Jul 3 · 06:04

微调 LLM：SFT、RLHF 和 DPO 详解

本文比较了三种主要的微调大型语言模型的方法：监督微调 (SFT)、人类反馈强化学习 (RLHF) 和直接偏好优化 (DPO)。文章解释说，虽然 SFT 通常最直接且适用于许多应用，但 RLHF 和 DPO 提供了更先进的技术，可将模型行为与人类偏好保持一致。该文旨在阐明每种方法的复杂性和用例，指导用户何时采用更复杂的方法。

TOOL · CL_121330 · Jul 2 · 01:48

ICML 2026 投稿量激增，关注点转向 AI 推理与安全

在首尔举行的国际机器学习大会 (ICML) 2026 收到了超过 23,000 篇论文，投稿量几乎翻倍，同时保持了 26.6% 的录用率。关键研究趋势表明，研究重点正从简单地扩展模型转向“更好思考”，更加关注 LLM 推理、AI 安全与对齐，以及通过压缩和加速技术提高模型效率。中国研究人员的引用率日益提高，并开始定义研究问题，特别是 DeepSeek 在高效模型开发和多模态 AI 方面的贡献产生了影响。

TOOL · CL_111732 · Jun 26 · 04:00

新的DZ-TiDPO框架解决了长上下文AI对话中的状态惯性问题

研究人员开发了DZ-TiDPO，一个旨在改善长上下文对话系统时间对齐的新框架。该方法解决了“状态惯性”问题，即模型因过度关注过去的对话历史而难以适应不断变化的用户意图。DZ-TiDPO旨在解决回合间冲突，同时不负面影响模型的通用语言能力，即所谓的“上下文对齐税”。该框架提供了用于效率和精度的双重推理策略，研究表明中等规模的模型可以有效地实现时间对齐。

RESEARCH · CL_111247 · Jun 25 · 09:21

LLM框架AIGP提升电商定价表现

研究人员开发了AIGP，一个使用大型语言模型（LLM）进行电商定价的新框架。该系统旨在通过整合领域知识和非结构化信息，以实现商品交易总额（GMV）和投资回报率（ROI）等长期业务目标，从而克服传统动态定价模型的局限性。AIGP利用一个使用离线强化学习和直接偏好优化（DPO）训练的长期价值估计器（LTVE）来指导定价决策。在陶工厂进行的在线A/B测试表明，AIGP在14天内将GMV提高了13%以上，ROI提高了近8%，里程碑达成率提高了…

TOOL · CL_109940 · Jun 25 · 04:00

新的几何方法优化了大型语言模型的顺序学习顺序

研究人员开发了一种优化顺序学习中训练数据顺序的新颖方法，特别是针对大型语言模型。这种被称为李括号锦标赛的方法，使用一个可计算的几何量——梯度更新场的李括号交换子——来预测不同数据域之间的最佳传递顺序。该方法在指令SFT和DPO的经验测试中表现出高成对准确率，并能有效恢复多个域和大型语言模型中的最佳调度。

TOOL · CL_107973 · Jun 24 · 04:00

新研究探讨AI推理蒸馏方法的权重空间几何

一篇新研究论文分析了用于将推理能力蒸馏到更小AI模型中的各种离线强化学习方法的权重更新的几何特性。该研究使用Qwen3-4B基础模型，在相同的数学相关数据上训练了六种不同的方法——SFT、RFT、DFT、RIFT、Offline GRPO和DPO。分析显示，虽然SFT、RFT和RIFT产生了相似的权重差值和准确率，但DFT显著不同。Offline GRPO引入了一个正交分量，而DPO占据了一个独特的子空间，在GSM8K和AIME26基…

TOOL · CL_104872 · Jun 23 · 02:13

新的BALTO框架在Token级别精准定位LLM幻觉

上海交通大学和腾讯的研究人员开发了BALTO，一个新颖的强化学习框架，旨在精准消除大型语言模型（LLMs）中的幻觉。该框架通过在Token级别分配信用，仅惩罚错误的Token，同时激励正确的、事实性的Token。这一方法在最近的一篇论文中有所详述，旨在保持模型响应的丰富性和信息量，这与传统方法不同，传统方法可能会因为微小的事实错误而过度惩罚整个答案。在金融和问答数据集上的实验表明，BALTO在稳定性、效率以及平衡事实准确性与信息内容方面表现出色。

TOOL · CL_92393 · Jun 15 · 17:11

术语表解释大型语言模型关键微调方法

本文提供了大型语言模型微调方法的术语表，解释了SFT、LoRA、QLoRA、DPO、RLHF和GRPO等缩略语。旨在帮助用户理解这些技术之间的区别，并根据其可用数据选择最合适的方法。

RESEARCH · CL_84915 · Jun 11 · 04:00

新方法通过令牌级偏好优化增强大语言模型对齐

两篇新研究论文介绍了改进大语言模型对齐的新颖方法，特别解决了现有直接偏好优化（DPO）技术的局限性。第一篇论文TAB-PO提出了一种令牌级自适应屏障，用于将梯度更新集中在结构化生成任务中的关键模式令牌上，在Llama和Qwen模型上于SciERC数据集上显示出显著改进。第二篇论文TokenRatio提出了令牌级Bregman偏好优化（TBPO），这是一种将DPO推广到令牌级决策的原则性方法，在各种基准测试中提高了对齐质量、训练稳定性和输出多样性。

TOOL · CL_82669 · Jun 10 · 04:00

LLM对齐技术可防御敏感数据提取

研究人员开发了新的方法来保护大型语言模型（LLM）免受属性推断攻击，这种攻击可以提取敏感数据集信息。与需要使用原始数据重新训练模型的先前防御方法不同，这种新方法采用了训练后对齐技术。通过调整类似DPO和GRPO的基于人类反馈的强化学习（RLHF）框架，可以修改模型的输出分布，从而在无需原始训练数据的情况下隐藏数据集属性。

RESEARCH · CL_79486 · Jun 8 · 16:21

新框架增强语言模型的自适应红队测试

研究人员开发了 AdvGRPO，一个旨在增强语言模型自适应红队测试的新型联合训练框架。该方法通过采用密集多通道奖励和解耦优势归一化来解决 GRPO 在攻击者-防御者优化中的不稳定性问题。训练过程遵循课程学习，从单轮攻击开始，然后过渡到多轮场景，最后才启动联合训练，最终产生更有效的攻击和更鲁棒的防御者。

TOOL · CL_67957 · Jun 3 · 00:51

教程展示了使用QLoRA和DPO微调LFM2

本教程演示了如何在Google Colab上使用QLoRA和直接偏好优化（DPO）微调LFM2模型。它涵盖了使用4位量化加载基础LFM2模型、准备监督微调（SFT）数据集以及训练轻量级LoRA适配器。该过程通过DPO进行扩展，以根据用户偏好对模型的响应进行对齐，从而得到一个准备好部署的改进型检查点。

RESEARCH · CL_65748 · Jun 2 · 04:00

新方法应对 AI 训练中的奖励欺骗问题

研究人员正在开发新方法来对抗人类反馈强化学习 (RLHF) 系统中的奖励欺骗问题。几篇论文介绍了检测和缓解模型利用奖励模型偏差导致次优或不安全结果的场景的技术。这些方法包括监控评估分数的调度原语、用于分析欺骗行为的可控环境，以及旨在提高鲁棒性和可解释性的新型奖励建模框架。

TOOL · CL_48909 · May 25 · 04:00

新的COALA方法使用凸优化进行高效的LLM偏好调整

研究人员开发了一种名为COALA的新方法，该方法使用凸优化来微调大型语言模型以适应人类偏好。与DPO等现有方法相比，这种方法显著减少了所需的计算资源和训练时间，从而能够在单个GPU上进行高效训练。COALA在多个数据集和模型上展示了具有竞争力的性能，实现了稳定的奖励增加和更快的收敛速度。

TOOL · CL_44357 · May 22 · 15:57

Anyscale 推出技能以自动化 LLM 后续训练运行

Anyscale 推出了新的 Anyscale Agent Skill，旨在简化和自动化 LLM 后续训练运行的生成过程。该技能可根据用户模型、数据集和目标，帮助用户选择最合适的后续训练方法，例如 SFT、CPT、DPO 或 RLVR。然后，它会为 LLaMA-Factory 和 Ray Train 等流行框架生成配置文件，并准备好在 Anyscale Jobs 上进行部署。

RESEARCH · CL_42479 · May 20 · 14:53

新的G2D流水线以更少的计算量优化语言模型

研究人员开发了G2D，一个三阶段流水线，结合了GRPO和DPO，以更有效地对语言模型进行离线偏好优化。该方法包括简短的GRPO预热，然后构建静态偏好数据集，最后用DPO进行微调。在Qwen2.5-7B和Llama-3.1-8B模型上的实验表明，G2D通过关注偏好数据的有效性而非仅仅数量，能够以显著降低的计算成本匹配或超越完全在线GRPO的性能。

TOOL · CL_35086 · May 17 · 00:01

LLM 微调详解：SFT、RAG 和数据准备

这篇博文解释了微调大型语言模型（LLM）以适应特定任务的过程和必要性。它将微调与检索增强生成（RAG）区分开来，指出微调最适合改变模型行为或推理，而 RAG 则用于整合外部或频繁变化的知识。文章详细介绍了监督微调（SFT），它使用指令-答案对来训练模型，并提供了 SFT 的数据准备示例，包括使用其他 LLM 生成合成数据集。

TOOL · CL_34321 · May 16 · 09:37

LLM 对齐：2026 年选择 PPO、DPO 或基于验证器的 RL？

本文为 2026 年选择合适的强化学习技术来对齐大型语言模型提供了技术指南。文章对比了用于人类反馈强化学习 (RLHF) 的近端策略优化 (PPO)、直接偏好优化 (DPO) 和基于验证器的强化学习 (RLVR)。作者建议将 DPO 用于通用的指令遵循和语气调整，将 RLVR 用于需要可验证正确性的任务（如数学或代码），并采用混合方法来处理复杂行为。

TOOL · CL_29384 · May 12 · 15:44

新的TBPO方法在令牌级别优化语言模型

研究人员推出了一种新的方法，称为令牌级布雷格曼偏好优化（TBPO），用于使用成对偏好来对齐语言模型。与目前关注完整序列的现有方法不同，TBPO在令牌级别运行，根据前面的上下文对单个下一个令牌动作的偏好进行建模。与当前方法相比，这种方法旨在提高对齐质量、训练稳定性和输出多样性。