实体 partially observable Markov decision process

partially observable Markov decision process

PulseAugur coverage of partially observable Markov decision process — every cluster mentioning partially observable Markov decision process across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 8

发布 · 30天

90 天内 0

论文 · 30天

90 天内 8

层级分布 · 90 天

主题

论文 8
其他 6
模型发布 2

时间线

2026-05-13 research_milestone A new framework for adaptive mine planning using POMDPs was proposed in a research paper. 来源

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_100112 · Jun 19 · 04:00

VOiLA框架使用扩散模型进行机器人不确定性规划

研究人员开发了VOiLA，一个使用学习扩散模型进行POMDP智能体不确定性规划的新框架。VOiLA通过采用条件扩散模型进行转移和观测采样，以及基于粒子的信念更新，来学习与任务无关的POMDP模型。该框架将这些扩散采样器蒸馏成高效的前馈生成器，并将其与一个GPU并行规划器VOPP集成。这种蒸馏显著降低了采样成本，使得学习到的POMDP模型能够实际应用于在线规划，并在基准问题和物理机器人评估中展现出强大的性能和泛化能力。
TOOL · CL_97992 · Jun 18 · 04:00

新的POMDP框架优化不确定性下的锂生产

研究人员开发了一个新的框架，使用部分可观察马尔可夫决策过程（POMDP）来优化锂生产决策。该方法解决了地质、需求和定价方面的不确定性，而这些不确定性在之前的模型中没有被充分捕捉。POMDP框架利用信念状态规划，能够动态适应各种锂价制度和提取技术，其表现优于人类启发式方法。研究表明，该方法在项目生命周期内能够实现更高的需求满足率，并改善经济和环境效益。
RESEARCH · CL_97982 · Jun 17 · 00:00

OmniAgent 使用主动感知进行高效视频理解 · 已追踪 2 个来源

研究人员推出 OmniAgent，这是一种新颖的全模态智能体，用于视频理解，它利用基于部分可观察马尔可夫决策过程 (POMDP) 的迭代式观察-思考-行动 (Observation-Thought-Action) 循环。这种方法允许智能体选择性地将视听线索提炼成文本记忆，从而将推理复杂性与原始视频时长解耦，提高计算效率。该论文详细介绍了两种关键的训练方法：用于引导主动感知的智能体监督微调 (Agentic Supervised Fin…
TOOL · CL_30729 · May 13 · 15:52

新的POMDP框架实现了地质不确定性下的自适应矿山规划

研究人员开发了一个新的矿山规划框架，通过将地质不确定性视为价值创造的活跃组成部分来适应它。该方法使用部分可观察马尔可夫决策过程（POMDP）进行序列决策，将未来的观测和信念更新整合到规划过程中。提出的SA-POMDP架构结合了模拟退火和基于集成的方法进行信念更新，与传统的静态规划方法相比，显著缩小了预期净现值（NPV）和实际净现值之间的差距。
RESEARCH · CL_22508 · May 7 · 14:30

新理论区分了AI能动性中的预测、压缩和赋权

一篇新论文提出了一个理论框架，用于理解在部分可观测性下运行的AI系统的能动性。该研究引入了“桥接接口”的概念，以模拟智能体如何通过可控参数和环境状态与其环境进行交互。该论文证明了预测、压缩和赋权之间的分离，表明有效的AI设计应区分识别隐藏状态、优化接口和实现任务相关控制。
RESEARCH · CL_16294 · May 4 · 15:00

新的因果模型为数字经济政策模拟提供框架

研究人员引入了两类新颖的因果模型，用于决策代理，称为结构因果决策模型（SCDMs）和结构因果决策过程（SCDPs）。这些模型通过显式表示因果关系并允许决策受其先决条件约束来扩展现有框架，同时还容纳了开放的根变量。SCDPs 因其表达能力而尤为突出，通过不假设理性信念形成并能够内生地建模记忆和变量折扣，超越了 POMDPs。
RESEARCH · CL_16192 · May 4 · 10:05

AI路由框架提升LEO卫星网络性能与效率

研究人员开发了一种新颖的、基于时空学习的分布式路由框架，专为动态低地球轨道（LEO）卫星网络设计。该框架将图注意力网络（GAT）和长短期记忆（LSTM）集成在深度Q网络（DQN）架构中，能够基于局部观测做出自适应路由决策。该系统被构建为一个部分可观察马尔可夫决策过程（POMDP），以处理动态网络条件和流量变化。仿真结果表明，与现有方法相比，吞吐量、丢包率、队列长度和端到端延迟均有显著改善，队列长度减少高达23.26%。此外，该方法还因…
RESEARCH · CL_08552 · Apr 28 · 17:40

机器人研究利用神经信念实现不确定性下的鲁棒抓取

研究人员开发了一种新的机器人鲁棒灵巧抓取方法，采用了变分神经信念参数化。该方法使用可微分的高斯混合模型来模拟接触参数和物体姿态中的不确定性，从而在不利条件下更有效地优化抓取成功率。仿真结果显示，与传统的粒子滤波方法相比，规划时间显著缩短，成功率有所提高；在机器人手臂上的实际测试也验证了其在不确定环境中的有效性。

VOiLA框架使用扩散模型进行机器人不确定性规划

新的POMDP框架优化不确定性下的锂生产

OmniAgent 使用主动感知进行高效视频理解 · 已追踪 2 个来源

新的POMDP框架实现了地质不确定性下的自适应矿山规划

新理论区分了AI能动性中的预测、压缩和赋权

新的因果模型为数字经济政策模拟提供框架

AI路由框架提升LEO卫星网络性能与效率

机器人研究利用神经信念实现不确定性下的鲁棒抓取