partially observable Markov decision process
PulseAugur coverage of partially observable Markov decision process — every cluster mentioning partially observable Markov decision process across labs, papers, and developer communities, ranked by signal.
- 2026-05-13 research_milestone A new framework for adaptive mine planning using POMDPs was proposed in a research paper. 来源
1 天有情绪数据
-
新的POMDP框架实现了地质不确定性下的自适应矿山规划
研究人员开发了一个新的矿山规划框架,通过将地质不确定性视为价值创造的活跃组成部分来适应它。该方法使用部分可观察马尔可夫决策过程(POMDP)进行序列决策,将未来的观测和信念更新整合到规划过程中。提出的SA-POMDP架构结合了模拟退火和基于集成的方法进行信念更新,与传统的静态规划方法相比,显著缩小了预期净现值(NPV)和实际净现值之间的差距。
-
新理论区分了AI能动性中的预测、压缩和赋权
一篇新论文提出了一个理论框架,用于理解在部分可观测性下运行的AI系统的能动性。该研究引入了“桥接接口”的概念,以模拟智能体如何通过可控参数和环境状态与其环境进行交互。该论文证明了预测、压缩和赋权之间的分离,表明有效的AI设计应区分识别隐藏状态、优化接口和实现任务相关控制。
-
新的因果模型为数字经济政策模拟提供框架
研究人员引入了两类新颖的因果模型,用于决策代理,称为结构因果决策模型(SCDMs)和结构因果决策过程(SCDPs)。这些模型通过显式表示因果关系并允许决策受其先决条件约束来扩展现有框架,同时还容纳了开放的根变量。SCDPs 因其表达能力而尤为突出,通过不假设理性信念形成并能够内生地建模记忆和变量折扣,超越了 POMDPs。
-
AI路由框架提升LEO卫星网络性能与效率
研究人员开发了一种新颖的、基于时空学习的分布式路由框架,专为动态低地球轨道(LEO)卫星网络设计。该框架将图注意力网络(GAT)和长短期记忆(LSTM)集成在深度Q网络(DQN)架构中,能够基于局部观测做出自适应路由决策。该系统被构建为一个部分可观察马尔可夫决策过程(POMDP),以处理动态网络条件和流量变化。仿真结果表明,与现有方法相比,吞吐量、丢包率、队列长度和端到端延迟均有显著改善,队列长度减少高达23.26%。此外,该方法还因…
-
机器人研究利用神经信念实现不确定性下的鲁棒抓取
研究人员开发了一种新的机器人鲁棒灵巧抓取方法,采用了变分神经信念参数化。该方法使用可微分的高斯混合模型来模拟接触参数和物体姿态中的不确定性,从而在不利条件下更有效地优化抓取成功率。仿真结果显示,与传统的粒子滤波方法相比,规划时间显著缩短,成功率有所提高;在机器人手臂上的实际测试也验证了其在不确定环境中的有效性。