实体 Markov decision processes: a tool for sequential decision making under uncertainty

Markov decision processes: a tool for sequential decision making under uncertainty

PulseAugur coverage of Markov decision processes: a tool for sequential decision making under uncertainty — every cluster mentioning Markov decision processes: a tool for sequential decision making under uncertainty across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 38

发布 · 30天

90 天内 0

论文 · 30天

90 天内 37

层级分布 · 90 天

research 16
tool 21
commentary 1

主题

论文 37
其他 29
模型发布 4
安全 3
基础设施 2
产品 1

关系

instance of Influence Flower 70%

情绪 · 30 天

14 天有情绪数据

最近 · 第 1/2 页 · 共 38 条

RESEARCH · CL_135131 · Jul 9 · 16:18

新算法增强了自主代理的鲁棒奖励学习能力

研究人员开发了一种新的机器学习算法，旨在提高自主代理奖励学习的鲁棒性。该算法跨越多个马尔可夫决策过程（MDP），并选择信息丰富的环境来暴露互补的奖励约束。然后，它在这些选定的环境中策略性地查询低成本反馈。这种多环境、多模态的方法与统一教学方法相比，表现出显著更低的遗憾和对未见环境的更好泛化能力，突显了其在学习动态鲁棒奖励函数方面的重要性。
RESEARCH · CL_135158 · Jul 9 · 10:29

研究人员为对决 Q-Learning 提供谱分析和收敛性保证

本文对对决 Q-Learning 进行了谱分析，对决 Q-Learning 是强化学习中使用的 Q-Learning 算法的扩展。该研究侧重于为该算法的无正则化表格版本提供理论理解和收敛性保证。作者推导了确定性对决 Q-Learning 的线性系统表示，并为随机版本建立了有限时间误差界限，阐明了值和优势更新如何影响 Q 函数分量。
TOOL · CL_131563 · Jul 8 · 04:00

新框架通过在线贝叶斯学习增强数字孪生

研究人员开发了一个新的自适应数字孪生框架，该框架增强了其在土木工程应用中的价值。该方法利用动态贝叶斯网络来模拟物理系统和虚拟系统之间的交互，通过贝叶斯更新实现状态转移动力学的在线学习。该框架允许比当前方法更广泛的分布范围，并采用强化学习来解决参数马尔可夫决策过程，以制定精确的动态策略。这导致了更个性化、更鲁棒、更具成本效益的数字孪生，正如在铁路桥梁结构健康监测和维护规划的案例研究中所证明的那样。
TOOL · CL_131508 · Jul 8 · 04:00

新框架从轨迹中学习状态表示，无需奖励

研究人员为马尔可夫决策过程（MDP）开发了一个新颖的状态表示框架，该框架直接从状态轨迹中学习，无需奖励信号或显式动作数据。该方法侧重于学习状态之间的最小动作距离（MAD），它量化了在它们之间移动所需的最少动作。通过创建一个距离反映MAD的嵌入空间，这种方法有助于目标条件强化学习和奖励塑造等下游任务，在各种环境中展示了优于现有状态表示技术的性能。
TOOL · CL_119723 · Jul 1 · 04:00

量子贝叶斯网络加速复杂环境中的强化学习

研究人员开发了量子贝叶斯强化学习（QBRL），这是一种混合量子-经典算法，旨在增强部分可观察环境中的决策能力。这种新方法利用量子拒绝采样和幅度放大来加速基于模型的强化学习中的信念更新。QBRL算法在表示稀疏贝叶斯网络的稀疏环境中的规划方面显示出亚二次加速的潜力，但对于完全可观察的环境或具有密集贝叶斯网络的稀疏环境没有优势。
TOOL · CL_117492 · Jun 30 · 04:00

新方法识别不确定决策过程中的概率原因

研究人员开发了一种在新方法，用于识别马尔可夫决策过程（MDP）中的概率原因，MDP用于不确定性下的序贯决策。这篇最近的arXiv论文中详细介绍的这种新颖方法，通过在转移概率未知时也能学习原因，解决了现有方法的局限性。该技术使用一种基于重启的MDP修改，将问题简化为条件可达性查询，并提供具有样本复杂度界限的概率保证。在基准数据集上的实验表明，该方法能够可靠且快速地识别概率原因。
TOOL · CL_125157 · Jun 29 · 01:07

新方法识别马尔可夫决策过程中的概率原因

研究人员开发了一种在新方法，用于识别马尔可夫决策过程（MDP）中的概率原因，并提供概率保证。该方法通过学习转移样本来解决现有方法的局限性，而不是依赖于预先计算的可达性概率（在未知的MDP中通常不可用）。提出的技术使用基于重启的修改来简化原因识别，并包括样本复杂度界限和一个随时可用的算法，用于状态的渐进分类。
TOOL · CL_111775 · Jun 26 · 04:00

AI策略通过历史聚合更快地学习网络安全渗透测试

研究人员开发并评估了在部分可观测网络安全场景下用于渗透测试的强化学习策略。他们将几种近端策略优化（PPO）变体（包括使用LSTM和TrXL架构的变体）与基线PPO方法进行了比较。研究发现，历史聚合显著提高了策略收敛性，比其他方法快了四倍，并提供了对所学策略的见解。
TOOL · CL_109972 · Jun 25 · 04:00

新的MPC方法整合未来信息以实现最优决策

研究人员开发了一种将未来信息整合到模型预测控制（MPC）中以解决马尔可夫决策过程（MDP）的方法。这种方法使得通常用于约束执行和领域知识嵌入的MPC，能够为包含外部未来数据（如预测或参考轨迹）的序列决策问题产生最优策略。该研究通过RL参数学习和点质量赛车任务，建立了参数化MPC准确表示具有增强状态的MDP的最优价值函数和策略的结构要求，并证明了其有效性。
TOOL · CL_109526 · Jun 24 · 13:16

新的置信序列改进了 MDP 的在线统计模型检查

研究人员为马尔可夫决策过程（MDP）的在线统计模型检查开发了新的置信序列。这些序列旨在在精确概率未知的情况下提供更准确、更有效的保证，这在对复杂系统进行建模时是一种常见情况。与现有的最先进方法相比，新方法所需的样本量大大减少，证明了其在实际应用中的可行性和性能提升。
RESEARCH · CL_109541 · Jun 24 · 09:00

新研究简化了马尔可夫决策过程中的最优策略

研究人员开发了一种理解结构化马尔可夫决策过程中最优策略的新方法。该研究提出了基于边界的策略近似方法，直接学习策略区域，这与传统逼近价值函数的方法形成对比。这种新方法将性能下降与动作边距联系起来，并解释了在临界边界附近的误差集中。在库存控制和队列接入方面的实验表明，与现有的强化学习基线相比，策略误差、价值差距和稳定性得到了改善。
RESEARCH · CL_109497 · Jun 23 · 21:02

用于外生上下文MDP学习的新minimax PAC界限

研究人员为外生上下文马尔可夫决策过程（MDP）中的学习开发了新的minimax PAC界限。该研究侧重于具有外生、独立同分布（i.i.d.）上下文的表格折扣MDP，这些上下文会影响奖励和转移。所提出的算法在策略评估、最佳值估计和最佳策略提取方面提供了改进的样本复杂度，其速率独立于上下文空间大小且是minimax最优的。
TOOL · CL_116080 · Jun 23 · 14:51

新方法将未来信息整合到MPC中，以获得最优MDP策略

研究人员开发了一种将未来信息整合到模型预测控制（MPC）中以解决马尔可夫决策过程（MDP）的方法。传统的MPC在MDP的最优策略方面存在困难，虽然已将强化学习（RL）与MPC结合起来解决这个问题，但现有方法并未完全考虑MDP状态中的未来信息。这种新方法确立了参数化MPC能够准确表示包含未来信息的MDP的最优价值函数和策略的条件，并在点质量赛车任务上证明了其有效性。
TOOL · CL_100098 · Jun 19 · 04:00

上下文学习可能支持机器学习中的内在好奇心

一项新的研究论文探讨了大型序列模型的上下文学习（ICL）能力是否能够支持机器学习中的内在好奇心。该研究调查了是否可以仅使用ICL模型的预测误差和上下文操纵来训练一个探索策略以最大化学习进度，从而消除了计算成本高昂的梯度下降更新的需要。虽然研究证明这在马尔可夫决策过程中通常是不可能的，因为奖励存在偏差或ICL的实现存在挑战，但它在主动学习和贝叶斯实验设计等非时间性设置中展示了一个积极的结果。跨各种环境的实验证实，这种由ICL驱动的框架成…
RESEARCH · CL_99557 · Jun 18 · 13:19

新的策略外评估方法解决了强化学习中缺失奖励的问题

研究人员开发了一种新的策略外评估（OPE）方法，用于处理强化学习中奖励缺失非随机（MNAR）的情况。该方法利用未来状态作为影子变量来识别完整数据的条件平均奖励，从而解决选择偏差问题。提出的估计器受Fitted-Q-Evaluation的启发，允许目标策略纳入过去的缺失指标，并在模拟数据和MIMIC-III败血症数据集的实验中表现出强大的性能。
RESEARCH · CL_99689 · Jun 18 · 11:30

新研究探索鲁棒优化和强化学习技术 · 已追踪 6 个来源

几篇新研究论文探索了强化学习和优化中的先进技术，重点关注鲁棒性和生成模型。其中一篇论文引入了一个平稳鲁棒均值场博弈框架，以解决多智能体强化学习中的模型不匹配问题，并建立了具有收敛保证的新算法。另一篇论文提出了生成式鲁棒优化 (GRO)，它使用深度生成模型来定义不确定性集，以实现更具表现力和可处理性的优化。此外，还提出了一种名为 SIVE 的新估计器，用于绕过神经网络损失景观中的最小化偏差，提供了一种鲁棒的训练诊断工具。最后，引入了一种…
TOOL · CL_104022 · Jun 17 · 18:11

探索上下文学习在人工智能内在好奇心方面的应用

研究人员探讨了序列模型的上下文学习（ICL）能力是否能够支持机器学习中的内在好奇心。虽然传统的自动数据选择方法或“内在好奇心”由于需要梯度下降更新而计算成本高昂，但这项工作研究了使用ICL作为一种无需更新的替代方案。该研究证明，在一般的马尔可夫决策过程中，这种方法不是无偏的，但在非时间性设置（如主动学习和贝叶斯实验设计）中取得了积极成果，在这些设置中，ICL产生的奖励可以界定并收敛到真实的学习进展。在各种环境中的实验证实，这种由ICL…
RESEARCH · CL_98174 · Jun 17 · 14:00

AI模型优化2型糖尿病随访间隔，降低成本

研究人员开发了一种情境马尔可夫决策过程（CMDP）模型，用于优化2型糖尿病（T2D）患者的随访间隔，超越了美国糖尿病协会的固定指南。通过分析超过22,000名患者的电子健康记录，该模型识别出两个不同的风险亚群。CMDP推导出的策略建议采用自适应随访计划，建议间隔时间从1个月（针对未测量实验室检查）到6-12个月（针对持续的血糖控制），高风险患者的随访间隔更短。与固定间隔基准相比，这种方法显著降低了预期的累积成本。
TOOL · CL_96221 · Jun 17 · 04:00

新AI框架优化复杂环境中的决策制定

研究人员开发了一种在新方法，用于在大型马尔可夫决策过程中创建面向性能的环境抽象。该方法通过聚合状态并在这些状态内强制执行共享动作分布来专注于优化决策质量。该框架联合调整策略和树状环境抽象，并根据Q值差异精炼状态空间区域，以平衡性能与抽象的复杂性。实证结果表明，与现有的Actor-Critic基线相比，状态压缩显著，样本效率提高，重规划速度更快。
TOOL · CL_93859 · Jun 16 · 04:00

新的Q学习算法提供细粒度的遗憾界限

研究人员开发了新的Q学习算法，可在片段式表格马尔可夫决策过程中提供更精确的遗憾界限。这些进展通过提供细粒度的、依赖于间隙的遗憾保证，解决了现有方法的局限性。该研究引入了一个新颖的分析框架，并提出了新的算法ULCB-Hoeffding和改进的AMB，它们展示了改进的性能和理论严谨性。

新算法增强了自主代理的鲁棒奖励学习能力

研究人员为对决 Q-Learning 提供谱分析和收敛性保证

新框架通过在线贝叶斯学习增强数字孪生

新框架从轨迹中学习状态表示，无需奖励

量子贝叶斯网络加速复杂环境中的强化学习

新方法识别不确定决策过程中的概率原因

新方法识别马尔可夫决策过程中的概率原因

AI策略通过历史聚合更快地学习网络安全渗透测试

新的MPC方法整合未来信息以实现最优决策

新的置信序列改进了 MDP 的在线统计模型检查

新研究简化了马尔可夫决策过程中的最优策略

用于外生上下文MDP学习的新minimax PAC界限

新方法将未来信息整合到MPC中，以获得最优MDP策略

上下文学习可能支持机器学习中的内在好奇心

新的策略外评估方法解决了强化学习中缺失奖励的问题

新研究探索鲁棒优化和强化学习技术 · 已追踪 6 个来源

探索上下文学习在人工智能内在好奇心方面的应用

AI模型优化2型糖尿病随访间隔，降低成本

新AI框架优化复杂环境中的决策制定

新的Q学习算法提供细粒度的遗憾界限