Markov decision process

新的NFTR方法通过避免模式崩溃改进离线目标条件RL

研究人员推出了一种新颖的离线目标条件强化学习方法NFTR（Normalizing Flows subgoal policies with Triangle-slack Reweighting）。NFTR通过使用条件归一化流（conditional Normalizing Flow）替换标准高斯策略，从而避免模式崩溃，解决了现有分层隐式Q学习（HIQL）的局限性。此外，它还引入了三角松弛分数（triangle slack score）来…

RESEARCH · CL_135129 · Jul 9 · 16:43

新基准评估AI代理在能源市场中的可信度

研究人员推出SolarChain-Eval，一个旨在评估在去中心化能源市场中运行的AI代理可信度的新基准。该基准纳入了物理约束，用于评估代理在市场效用之外的指标，包括物理安全性、滑点和可审计性。实验表明效用和安全性之间存在权衡，强化学习代理提高了效用但可能表现出不安全行为。基于LLM的规划/审计层可以提高可审计性并减轻一些风险，但不能完全弥补奖励函数定义不当的问题。

RESEARCH · CL_135146 · Jul 9 · 13:05

ADORN 使用强化学习管理开放无线接入网中的 AI/ML 模型漂移

研究人员开发了 ADORN，这是一种管理开放无线接入网 (O-RAN) 中使用的 AI/ML 模型的性能漂移的新方法。该系统利用基于 Q 学习的强化学习代理来做出自适应再训练决策，平衡预测准确性与计算成本。ADORN 采用多专家长短期记忆 (LSTM) 集成，以防止灾难性遗忘并增强模型在不同流量条件下的鲁棒性。实验结果表明，与现有方法相比，ADORN 显著降低了再训练开销，同时确保系统性能保持在服务水平协议之内。

TOOL · CL_133609 · Jul 9 · 04:00

新的自适应OPTICS聚类方法增强了联邦学习

研究人员开发了一种新颖的联邦学习方法，以解决用户终端之间非独立同分布数据的挑战。该方法利用自适应OPTICS聚类算法，将参数调整过程建模为马尔可夫决策过程，从而无需手动干预即可找到最优聚类参数。所提出的方法已通过实验验证，证明了其在实现更好联邦聚合方面的有效性和优越性。

TOOL · CL_131562 · Jul 8 · 04:00

深度强化学习解决交通模拟校准问题

研究人员开发了一个新颖的框架，使用无模型深度强化学习（DRL）来解决微观交通模拟中的动态起讫点矩阵估计（DODE）问题。该方法将DODE重构为马尔可夫决策过程，允许智能体通过与模拟环境的交互来学习生成OD矩阵的最优策略。该方法有效地解决了信用分配挑战，该挑战源于复杂的时态动态和个体车辆的不确定性，这些因素模糊了特定OD对对观测到的交通流量的贡献。在玩具网络和真实世界高速公路子网络上的评估表明，校准性能得到了显著提高，与传统基线相比，均…

TOOL · CL_129263 · Jul 7 · 04:00

新框架优化动态订单履行操作

研究人员引入了一个名为“基于分解的价值函数近似框架”（DDF-VFA）的新框架，以应对动态订单履行操作的复杂性。该框架将问题建模为马尔可夫决策过程，将订单准备和配送阶段分开。DDF-VFA在将准备阶段视为约束的同时优化配送策略，并利用大型邻域搜索和神经网络价值函数近似。在真实数据集上的数值结果表明，DDF-VFA优于那些独立或联合管理两个阶段而不进行分解的现有基准。

TOOL · CL_128679 · Jul 7 · 04:00

新的SWRL框架利用强化学习增强动态装配调度

研究人员开发了一个名为SWRL（基于滑动窗口的强化学习）的新框架，以解决动态装配流水车间调度的复杂问题。该方法使用基于图的马尔可夫决策过程来模拟多产品套件交付，由于动态订单到达和作业分配的变化，这给实时调度带来了挑战。SWRL包含一个滑动窗口机制来过滤不相关的操作，一个时空图网络来跟踪瓶颈转移，以及一个动态动作模块来适应不断变化的动作空间。使用一家家电制造商的数据进行的实验表明，与传统方法和现有的深度强化学习技术相比，SWRL显著降低…

RESEARCH · CL_128693 · Jul 4 · 00:00

新的BRAID框架将多模态推理与强化学习统一起来

研究人员推出了一种新颖的BRAID框架，该框架通过将交错的文本-图像生成视为马尔可夫决策过程来统一多模态推理。这种方法允许使用强化学习联合优化文本和视觉生成，克服了先前将图像生成单独处理的方法的局限性。BRAID利用视觉语言模型提供中间反馈，增强了跨异构模态的学习，并在推理和感知基准测试中展现出卓越的性能。

TOOL · CL_123258 · Jul 3 · 04:00

PPO驱动的自适应滤波框架在信号去噪方面展现出潜力

研究人员开发了一种利用近端策略优化（PPO）这一强化学习技术的新型自适应滤波框架。这种PPO驱动的方法旨在复杂、非平稳环境中对信号进行去噪，其性能优于卡尔曼滤波器等传统方法。该框架在合成数据和真实心电图（ECG）记录上进行了测试，证明了其在减少噪声和实现实时推理方面的有效性。

TOOL · CL_123654 · Jul 2 · 12:50

AI研究将推荐系统构建为动态决策过程

研究人员通过将候选项目生成过程构建为马尔可夫决策过程（MDP）来开发一种新方法。该方法考虑了用户旅程的动态性，其中每个推荐的项目都会改变用户状态并影响后续推荐。通过将Top-K检索视为MDP，该系统引入了轨迹奖励，该奖励平衡了相关性相似度和后验对齐度，在多个数据集上优于静态检索方法。

TOOL · CL_117519 · Jun 30 · 04:00

新框架采用多智能体深度强化学习优化工业6G网络

研究人员开发了一个面向工业6G网络的新型框架，该框架整合了地面和非地面组件，包括无人机挂载的可重构智能表面（RIS）、地面无线电单元和高空平台（HAP）。该系统旨在改善在复杂环境中密集工业物联网设备的连接性。为应对优化数据速率、延迟和能耗的复杂性，采用了多智能体深度强化学习方法，并展示了相较于现有方法的显著改进。

TOOL · CL_115635 · Jun 29 · 04:00

新方法Retroactive Advantage Correction解决RLHF中的延迟奖励问题

研究人员开发了Retroactive Advantage Correction (RAC)，一种解决人类反馈强化学习 (RLHF) 中延迟奖励信号挑战的新方法。标准的RLHF假设奖励是同步的，但在代码执行验证或人工审查等实际应用中会引入延迟。RAC将这些延迟的完成进行排队，并将它们作为裁剪后的残差注入后续的优化步骤，从而有效地纠正偏差。这种方法可以与Proximal Policy Optimization (PPO) 和 GRPO等现…

TOOL · CL_109534 · Jun 24 · 10:48

新的强化学习方法优化水下航行器动力预算

研究人员开发了一种新的水下航行器控制方法，通过将功耗视为明确的约束来优先考虑能源效率。该方法使用约束马尔可夫决策过程和PPO-Lagrangian算法，允许用户以物理单位设置特定的动力预算。在MarineGym模拟器中的各种航行器和任务中，该方法成功地将功耗降低了14-65%，同时保持了任务的准确性和平稳性，为能源高效的水下作业提供了一种无需调整的解决方案。

TOOL · CL_104707 · Jun 21 · 10:24

新的SciVerseGym环境标准化了AI驱动的晶体发现

研究人员开发了SciVerseGym，一个与Gymnasium兼容的新环境，将晶体发现构建为马尔可夫决策过程。该平台允许智能体与原子结构进行交互，应用编辑，并从评估器那里获得反馈。SciVerseGym支持多种操作，包括元素替换和晶格扰动，并且可以配置不同的化学空间和观察类型。它旨在为材料科学中的强化学习、贝叶斯优化和其他AI驱动的方法提供一个标准化的、可扩展的测试平台。

TOOL · CL_97992 · Jun 18 · 04:00

新的POMDP框架优化不确定性下的锂生产

研究人员开发了一个新的框架，使用部分可观察马尔可夫决策过程（POMDP）来优化锂生产决策。该方法解决了地质、需求和定价方面的不确定性，而这些不确定性在之前的模型中没有被充分捕捉。POMDP框架利用信念状态规划，能够动态适应各种锂价制度和提取技术，其表现优于人类启发式方法。研究表明，该方法在项目生命周期内能够实现更高的需求满足率，并改善经济和环境效益。

RESEARCH · CL_97831 · Jun 17 · 14:44

新的Pareto Q-Learning算法增强了多目标强化学习

研究人员推出了一种新颖的多目标强化学习算法——带奖励机的Pareto Q-Learning（PQLRM），该算法专为具有由奖励机定义的复杂奖励结构的任务而设计。该算法集成了Pareto Q-Learning（处理用于Pareto前沿近似的向量值Q估计）与带奖励机的Q-Learning的增强功能（利用奖励信号的自动机结构）。PQLRM旨在在非马尔可夫、奖励机编码的环境中实现样本效率，并已证明其收敛速度更快，并且能够合成其他方法无法实现的…

RESEARCH · CL_97852 · Jun 17 · 08:27

研究人员提出强化学习基础模型

一篇新研究论文提出开发专门用于强化学习（RL）的基础模型，认为与语言和视觉领域相比，该领域目前存在一个明显的空白。作者认为，马尔可夫决策过程（MDP）非常适合基于注意力（attention-based）的架构，类似于在表格基础模型中使用的架构。作为演示，他们在一个合成MDP上训练了一个模型，该模型成功地以最小的调整解决了未见过的表格基准测试，在在线设置中优于UCB-VI和表格Q学习等传统方法，并在离线场景中与VI-LCB竞争。

RESEARCH · CL_95914 · Jun 16 · 05:56

新的反向Q学习算法提升离线强化学习性能

研究人员推出了一种新颖的离策略强化学习算法——反向Q学习（RQL），专为离线强化学习任务设计。RQL利用迭代生成模型技术（如流匹配）来使用现有数据训练流策略。该算法通过生成虚拟的在线策略轨迹并采用偏差-方差缩减来缓解“视界诅咒”，从而解决了扩展马尔可夫决策过程框架中的挑战。在模拟机器人任务上的实验表明，RQL的性能优于现有的基于流的离线强化学习方法。

RESEARCH · CL_96076 · Jun 16 · 04:42

MagicSim基础设施统一机器人学习、控制和规划

研究人员推出了MagicSim，这是一个专为机器人领域可执行具身交互设计的新型统一基础设施。该系统旨在通过提供一个单一的、确定性的运行时环境来弥合机器人控制、技能和规划之间的差距。MagicSim从YAML规范构建各种可执行世界，从而实现任务定义、基准评估以及代理和视觉语言模型的接地轨迹的自动生成的统一方法。

TOOL · CL_93828 · Jun 16 · 04:00

新的CADO框架优化组合优化求解器

研究人员推出了一种新颖的CADO框架，旨在改进用于组合优化问题的基于热图的求解器。与专注于模仿数据结构的传统监督学习方法不同，CADO直接优化最终解码解决方案的成本。这是通过将扩散去噪过程构建为马尔可夫决策过程并采用以地面真实标签为基线的标签中心奖励系统来实现的。该框架还采用了混合微调以实现高效的参数适应，并在各种基准测试中展示了最先进的性能。