Q-learning · PulseAugur

ADORN 使用强化学习管理开放无线接入网中的 AI/ML 模型漂移

研究人员开发了 ADORN，这是一种管理开放无线接入网 (O-RAN) 中使用的 AI/ML 模型的性能漂移的新方法。该系统利用基于 Q 学习的强化学习代理来做出自适应再训练决策，平衡预测准确性与计算成本。ADORN 采用多专家长短期记忆 (LSTM) 集成，以防止灾难性遗忘并增强模型在不同流量条件下的鲁棒性。实验结果表明，与现有方法相比，ADORN 显著降低了再训练开销，同时确保系统性能保持在服务水平协议之内。

RESEARCH · CL_135158 · Jul 9 · 10:29

研究人员为对决 Q-Learning 提供谱分析和收敛性保证

本文对对决 Q-Learning 进行了谱分析，对决 Q-Learning 是强化学习中使用的 Q-Learning 算法的扩展。该研究侧重于为该算法的无正则化表格版本提供理论理解和收敛性保证。作者推导了确定性对决 Q-Learning 的线性系统表示，并为随机版本建立了有限时间误差界限，阐明了值和优势更新如何影响 Q 函数分量。

TOOL · CL_132296 · Jul 8 · 14:55

强化学习系列介绍 Q-learning 及其对 DQN 的影响

Shawn Hymel 发布了他的强化学习系列文章的第十篇，重点介绍了 Q-learning。该方法与 SARSA 的不同之处在于，它利用下一个动作的最大 Q 估计值，这一技术为深度 Q 网络 (DQN) 铺平了道路。该文旨在向读者介绍强化学习中的这一基本概念。

TOOL · CL_130501 · Jul 7 · 17:01

文章发现，强化学习中的因果推理面临数据损坏的挑战

一篇新文章探讨了将因果推理整合到强化学习（RL）智能体中的挑战。虽然因果模型有望为RL带来更强的泛化能力和干预能力，但如果学习到的因果图不正确，其性能可能比标准的基于相关性的方法更差。文章强调，RL智能体策略收集的数据会破坏因果发现过程，使得某些因果关系在统计学上变得不可见。这项工作旨在阐明因果模型何时能使RL从业者和研究人员受益，尤其是在非平稳环境中。

RESEARCH · CL_128965 · Jul 7 · 04:00

Q学习理论通过新的误差分析和切换系统框架得到推进 · 跟踪2个来源

两篇新研究论文从不同的理论角度分析了Q学习，一种基础的强化学习算法。第一篇论文侧重于Q学习固有的高估偏差，将误差分解为正负分量，以推导出单独的有限时间收敛速率。第二篇论文将线性Q学习置于切换线性系统理论的框架内，使用联合谱半径来分析有限时间误差并提供收敛证明。

TOOL · CL_123464 · Jul 2 · 15:25

新的RL-HGGA算法加速装箱问题解决方案

研究人员开发了RL-HGGA，这是一种结合了元启发式方法和强化学习来解决一维装箱问题的新型算法。这种混合方法使用Q学习代理动态选择遗传算子，从而在保持具有竞争力的解决方案质量的同时，显著减少了计算时间。在基准数据集上的实验表明，RL-HGGA的平均最优性差距为0.95%，在效率方面比以前的方法有了实质性改进。

TOOL · CL_123041 · Jul 2 · 00:24

新的DiPS框架增强了LLM在高风险场景下的说服力

研究人员开发了DiPS，一个Q学习框架，旨在提高大型语言模型（LLM）在高风险情况下的说服能力。该系统根据不断变化的对话情境动态选择说服策略，适应个体用户的个性和关切。在火灾救援疏散场景的评估中，DiPS在模拟和人类互动中都显示出比标准LLM和检索增强生成方法更高的成功率。

TOOL · CL_117663 · Jun 30 · 04:00

新的均值扩展层加速强化学习价值共享

研究人员开发了一种称为均值扩展层的新方法，用于加速Q学习等强化学习算法中的动作值学习。该层在单个状态内高效地跨不同动作共享价值信息，而不是独立更新每个状态-动作对。通过学习动作值的低范数表示，该方法在集成到深度Q网络和隐式分位数网络后，在Atari游戏上表现出改进的性能，减少了价值高估，并增加了动作差距。

RESEARCH · CL_111228 · Jun 25 · 14:48

新的重球Q学习方法有望加速强化学习收敛

研究人员引入了一种新颖的重球Q学习方法，旨在增强强化学习算法。这种新方法建立了收敛保证，并确定了在何种条件下理论上可以比标准Q学习实现更快的收敛。通过将其扩展到具有线性函数逼近的Q学习，该方法的有效性得到了进一步证明，并产生了类似的收敛和加速结果。

RESEARCH · CL_99555 · Jun 18 · 15:20

新的鲁棒 Q-学习算法解决了具有 Wasserstein 不确定性的均场控制问题

研究人员开发了一种新的鲁棒 Q-学习算法，用于均场控制问题。该算法通过将量化-投影方案与 Wasserstein 对偶重构相结合，解决了公共噪声定律中 Wasserstein 不确定性带来的挑战。所提出的方法已证明了收敛性，并为同步和异步学习方案提供了有限时间迭代界限，数值实验验证了其在系统性风险和流行病相关模型上的性能。

RESEARCH · CL_97808 · Jun 16 · 21:32

量子退火助力AI预测性维护 · 跟踪2个来源

研究人员开发了一种新颖的量子退火增强Q学习（QAQL）框架，以改进预测性维护中的剩余使用寿命（RUL）预测。该方法将量子退火的采样能力与Q学习的决策过程相结合，将Q值更新编码为在D-Wave Advantage系统上求解的QUBO问题。QAQL框架在NASA C-MAPSS涡轮风扇发动机数据集和设备集群预测性维护数据集上，均显示出比经典和量子基线具有统计学上的显著改进，表明其在工业RUL估算中的实际应用潜力。

TOOL · CL_93859 · Jun 16 · 04:00

新的Q学习算法提供细粒度的遗憾界限

研究人员开发了新的Q学习算法，可在片段式表格马尔可夫决策过程中提供更精确的遗憾界限。这些进展通过提供细粒度的、依赖于间隙的遗憾保证，解决了现有方法的局限性。该研究引入了一个新颖的分析框架，并提出了新的算法ULCB-Hoeffding和改进的AMB，它们展示了改进的性能和理论严谨性。

RESEARCH · CL_93397 · Jun 15 · 15:23

新理论推进连续随机控制中的Q学习

研究人员在arXiv上发表了一篇论文，详细介绍了Q学习（强化学习中的一个基本算法）的理论进展。该研究侧重于连续状态和动作空间中Q学习的数学基础，特别是分析了贝尔曼最优性目标。该论文提出了一种专门针对问题混合正则性属性的DeepONet架构，并推导了近似界限，强调了随着时间步长接近零时，刚度和复杂性之间的权衡。

RESEARCH · CL_82029 · Jun 9 · 13:24

新的Q学习方法通过几何目标更新增强稳定性

研究人员引入了一种名为$\lambda$-target update的新方法，用于线性Q学习，该方法使用几何权重对周期性目标更新进行平均。该技术旨在提高Q学习的稳定性，尤其是在使用线性函数逼近时。该论文使用切换系统模型分析了这种机制，并指出它适用于确定性和随机强化学习场景。

TOOL · CL_80125 · Jun 9 · 04:00

新算法BLINQ学习马尔可夫决策过程的Whittle指数

研究人员开发了BLINQ，一种新颖的基于模型的算法，旨在学习马尔可夫决策过程（Markov Decision Processes）的Whittle指数。这种新方法构建了MDP的经验估计，然后计算指数，提供了已证实的收敛保证和学习时间的界限。数值实验表明，BLINQ在准确逼近方面比现有的Q-learning方法需要更少的样本，并且总体计算成本更低。

RESEARCH · CL_65476 · May 31 · 15:46

新研究探讨Q学习稳定性和离线RL方法

两篇新研究论文探讨了强化学习技术的进展。一篇论文介绍了漂移Q学习（Drift Q-Learning），该方法结合了基于漂移的行为正则化器和由Critic驱动的策略改进，以提高离线强化学习任务的性能和稳定性。另一篇论文对线性Q学习中的周期性和软性目标更新进行了理论分析，证明了这些机制在特定条件下可以保证收敛。

RESEARCH · CL_62198 · May 29 · 13:41

李雅普诺夫框架分析随机算法收敛性

研究人员发表了一篇论文，详细介绍了一个基于李雅普诺夫的框架，用于分析随机迭代算法的有限时间收敛性。该方法使用广义莫罗包络作为通用的李雅普诺夫函数，适用于各种范数和噪声类型。该框架提供了均方收敛保证，并可扩展到随机梯度下降等算法以及Q学习和时间差分学习等强化学习方法。

RESEARCH · CL_62182 · May 28 · 12:26

研究发现：延迟调控会破坏自适应AI智能体的稳定性

一篇新研究论文探讨了监管干预延迟如何破坏自适应多智能体系统的稳定性。研究发现，对信号立即做出反应的反应式智能体在面对延迟抑制时极易出现不稳定性，导致振荡。相比之下，使用强化学习（Q学习）的智能体由于能够从过去的惩罚中学习，缓冲了延迟反馈的破坏性影响，因此表现出更强的韧性。

TOOL · CL_53753 · May 27 · 04:00

Q学习集成提高了离线上下文强化学习的性能

一篇新的研究论文探讨了将强化学习（RL）目标整合到离线上下文强化学习（ICRL）方法中的有效性。在GridWorld和MuJoCo环境中超过150个数据集的实验表明，与标准的算法蒸馏（AD）相比，直接优化RL目标平均将性能提高了约30%。在XLand-MiniGrid环境中，RL目标使AD的性能翻倍，并且在大多数测试场景中，在价值学习过程中增加保守性可以进一步提高结果。研究结果强调了将ICRL学习目标与RL的奖励最大化目标对齐的重要性。

TOOL · CL_51393 · May 26 · 04:00

新的强化学习策略提升高频交易表现

研究人员开发了用于限价订单簿高频交易的新型强化学习策略。他们的方法利用订单流信号作为状态表示，并采用策略梯度方法，特别是群组感知近端策略优化（PPO）的变体，如GRPO和GSPO。在AMZN、AAPL和GOOG等金融资产上的回测表明，这些新策略在净利润、盈利能力和回撤方面优于Q-Learning基线。