Pfadfinder und Pfadfinderinnen Österreichs

LLM alignment: PPO, DPO, or verifier-based RL for 2026?

This article provides a technical guide for selecting the appropriate reinforcement learning technique for aligning large language models in 2026. It contrasts Proximal Policy Optimization (PPO) for Reinforcement Learni…

TOOL · CL_34502 · May 14 · 06:10

新的联邦Actor-Critic框架增强了个性化策略训练

研究人员开发了一种新的联邦Actor-Critic框架，用于在不同条件的环境中进行协作策略训练。该方法允许多个智能体共享通用表示，同时保留个性化策略组件。该框架已证明了有限时间收敛性，显示出相对于智能体数量的线性加速，并在实验中优于现有方法。

TOOL · CL_22524 · May 8 · 04:00

AI模型优化海上网络中HAPS基站的定位

研究人员开发了一个新的框架，使用深度强化学习来动态定位海事网络中的高空平台站（HAPS）。该方法专门解决了平流层风和船舶移动带来的挑战，这些因素会干扰稳定的无线覆盖。该系统采用近端策略优化（PPO）算法来学习定位策略，以提高系统吞吐量并为海上用户保持可靠的连接。

TOOL · CL_20509 · May 7 · 04:00

HELM system optimizes GPU HBM for generative recommender latency

Researchers have developed HELM, a system designed to optimize the performance of generative recommender models by dynamically managing High Bandwidth Memory (HBM) allocation between embedding (EMB) and KV caches. Exist…

TOOL · CL_20435 · May 7 · 04:00

Counter-Dyna 将暖通空调控制训练时间缩短至 5 周

研究人员开发了 Counter-Dyna，一种用于暖通空调控制系统数据高效强化学习的新方法。该方法利用利用状态空间不变性的反事实代理模型，与以前的方法相比，显著减少了所需的训练数据。新技术仅需五周的交互数据，比通常所需数月有了显著改进，并在模拟中展示了 5.3% 至 17.0% 的潜在成本节约。

TOOL · CL_19903 · May 6 · 19:06

vLLM V1引擎重写在后端修复后实现与V0的对等

Hugging Face的vLLM团队详细介绍了如何将他们新的V1引擎与V0参考模型对齐的过程，重点在于确保后端对等，然后再处理强化学习（RL）目标的变化。他们识别并修复了四个关键问题：处理已处理的logprobs的方式、V1特有的运行时默认值、inflight权重更新路径以及使用fp32作为最终投影层。这些修正对于恢复后端行为以匹配V0参考模型至关重要，从而能够准确评估RL目标调整。

TOOL · CL_18782 · May 6 · 04:00

新的OGPO算法提高了机器人领域生成式控制策略的样本效率

研究人员推出了一种名为“离策略生成策略优化”（OGPO）的新型算法，该算法专为机器人领域生成式控制策略的样本高效微调而设计。OGPO利用离策略评论家网络来最大化数据重用，并通过整个生成过程传播策略梯度。该方法在各种操作任务上实现了最先进的性能，并展示了在没有专家数据的情况下微调初始化不良策略的能力。

TOOL · CL_18538 · May 6 · 04:00

PERSA管道使用RLHF使大型语言模型反馈与教师风格保持一致

研究人员开发了PERSA，这是一种使用人类反馈强化学习（RLHF）来调整大型语言模型以生成个性化教育反馈的新方法。该方法专门针对将大型语言模型的反馈风格与特定教师的风格保持一致，同时不损害诊断准确性。通过仅更新顶部的Transformer块及其投影，PERSA增强了风格可控性，同时保持内容正确性，在代码反馈基准测试中取得了高分。

TOOL · CL_16702 · May 5 · 13:22

作者通过新的博客系列揭开强化学习数学的神秘面纱

一个旨在揭开强化学习背后数学神秘面纱的新博客系列，从基础概念开始，逐步深入到诸如近端策略优化 (PPO) 等高级算法。该系列的初始博文现已发布，为那些觉得该主题具有挑战性的人提供了一个易于理解的切入点。

TOOL · CL_16233 · May 5 · 04:00

新研究表明高熵导致Dec-POMDP中的对称等变策略

一篇新论文探讨了高熵正则化如何在分布式部分可观察马尔可夫决策过程（Dec-POMDPs）中产生对称等变策略。研究表明，足够高的熵可以确保策略梯度流在不同初始化下收敛到兼容的联合策略。在Hanabi和Overcooked等环境中的实证测试表明，增加熵系数会显著影响跨局回报，并且在训练后通过贪婪化策略有改进的潜力。

RESEARCH · CL_16149 · May 5 · 04:00

AI代理利用强化学习增强软件测试用例生成和代码覆盖率

研究人员开发了两种使用大型语言模型（LLMs）和强化学习进行自动化测试用例生成的新方法。第一种方法PPO-LLM采用近端策略优化（PPO）来指导LLM的提示选择，旨在最大化代码覆盖率并最小化源代码长度。第二种方法FeedbackLLM使用具有专门反馈代理的多代理系统，根据行和分支执行元数据来优化测试用例，并包含一个冗余预防缓存。这两种方法在为复杂软件系统生成测试用例方面均显示出优于现有工具的性能。

RESEARCH · CL_15452 · May 3 · 04:45

New research refines LLM alignment beyond DPO and RLHF

Researchers are exploring advanced methods for aligning large language models with human preferences, moving beyond traditional Reinforcement Learning from Human Feedback (RLHF). New approaches like Direct Preference Op…

RESEARCH · CL_11904 · May 1 · 04:00

新的C++引擎HASE在多智能体强化学习训练中达到33M步/秒

研究人员开发了一种名为捉迷藏引擎 (HASE) 的新C++引擎，旨在显著提高在去中心化、部分可观察环境中的强化学习智能体训练效率。通过利用面向数据设计和优化的内存处理，HASE在单个智能体上实现了高达每秒3300万步的惊人吞吐量。该引擎大大缩短了多智能体策略的训练时间，使得复杂的协作行为能在几分钟内学会。

RESEARCH · CL_08685 · Apr 29 · 04:00

xLSTM networks enhance deep reinforcement learning for automated stock trading

Researchers have developed a new automated stock trading system utilizing Extended Long Short-Term Memory (xLSTM) networks combined with deep reinforcement learning (DRL). This approach aims to overcome the limitations …

RESEARCH · CL_06928 · Apr 28 · 04:00

AI框架优化马拉维湖盆地土地利用以实现生态系统服务

研究人员开发了一个深度强化学习框架，以优化马拉维湖盆地的土地利用分配，旨在提升生态系统服务价值。该系统使用近端策略优化（Proximal Policy Optimization）代理来调整土地覆盖像素，并纳入生态价值和空间连贯性奖励。在不同场景下的评估表明，该代理成功地提高了生态系统价值并采用了符合生态规律的模式，展示了其在环境规划和政策分析方面的潜力。

RESEARCH · CL_06752 · Apr 28 · 04:00

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能

研究人员开发了新的方法来提高用于对齐大型语言模型（LLM）的奖励模型（RM）的可靠性和可解释性。一种方法引入了因果驱动的干预技术，以在推理时减轻 RM 中的各种偏差，显示出对虚假特征的敏感性降低，而没有性能权衡。另一项开发是“reward-lens”库，它将机制可解释性工具应用于 RM，揭示线性归因并不总是能预测因果打补丁的效果。此外，一种称为时间连贯奖励建模（TCRM）的新方法将 RM 视为价值函数，从而能够进行可解释的 token…

RESEARCH · CL_06317 · Apr 27 · 14:43

GradMAP AI 学会去中心化电网边缘设备控制，训练速度更快

研究人员开发了 GradMAP，一种新颖的基于梯度的多智能体近端学习方法，用于协调去中心化的电网边缘设备。该方法为每个智能体训练独立的神经网络策略，不共享参数，仅使用局部观测进行决策。GradMAP 在离线训练期间嵌入可微分潮流模型，以传播约束违反并更新策略，与现有基准相比，显著加快了训练速度。

RESEARCH · CL_05416 · Apr 21 · 14:07

DVPO和EVPO通过新颖的RL优化技术推进LLM训练后

研究人员引入了DVPO，这是一个新的强化学习框架，旨在改进大型语言模型（LLM）的训练后，特别是在处理嘈杂或不完整的监督信号时。DVPO利用分布值建模和不对称风险正则化来平衡鲁棒性和泛化性，旨在避免现有方法可能产生的过于保守的策略。在对话、数学推理和科学问答任务上的实验表明，在嘈杂条件下，DVPO的表现优于PPO和GRPO等标准方法。

SIGNIFICANT · CL_02559 · Apr 15 · 07:00

OpenAI Five AI 在历史性的电子竞技比赛中击败 Dota 2 世界冠军

OpenAI Five 在 OpenAI Five 总决赛中以两场连胜击败了 Dota 2 世界冠军，取得了重要的里程碑。这是首次有 AI 在直播比赛中公开战胜职业电子竞技选手。AI 的成功归功于训练计算量的巨大增加，使用了比之前版本多 8 倍的资源。除了比赛之外，OpenAI Five 还展现了与人类队友合作的意外能力，预示着未来有益的 AI 应用潜力。

RESEARCH · CL_01553 · Jul 20 · 07:00

OpenAI发布Proximal Policy Optimization，实现更简单、有效的强化学习

OpenAI发布了Proximal Policy Optimization (PPO)，这是一种新的强化学习算法，其性能可与现有方法媲美或更优，同时实现更简单的实现和调优。PPO在易用性、样本效率和超参数调优之间取得了平衡，使其成为深度神经网络控制任务的宝贵工具。该版本包括使用TensorFlow和MPI的可扩展、并行Python 3实现，以及提供显著速度提升的GPU版本PPO2。