实体 Dec-POMDP

Dec-POMDP

PulseAugur coverage of Dec-POMDP — every cluster mentioning Dec-POMDP across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_131692 · Jul 7 · 07:58

新的MARL框架通过延迟感知提升空中目标定位精度

研究人员开发了一个新的多智能体强化学习框架，旨在提高空中目标三维定位的精度，特别是在反无人机应用中。该框架通过将信息年龄（AoI）纳入观测，解决了检测、通信和决策中的累积延迟问题。实验表明，与假设瞬时反馈的方法相比，这种延迟感知的⽅法显著提高了三角测量有效性并降低了均方根误差。
TOOL · CL_93838 · Jun 16 · 04:00

研究发现MARL基准测试可能不需要复杂的推理

一篇新发表在arXiv上的研究论文对当前合作式多智能体强化学习（MARL）基准测试的有效性提出了质疑。该研究引入了诊断工具来评估智能体是否真正采用了Dec-POMDP推理，这涉及到推断隐藏状态并基于局部信息进行协调。研究结果表明，许多流行的MARL基准测试并不需要这种复杂的推理，简单的反应式策略通常也能取得相当的性能。该研究认为，当前的训练范式可能导致对进展的评估过高，并呼吁在该领域进行更严格的环境设计和评估。
TOOL · CL_20415 · May 7 · 04:00

多智能体强化学习研究统一观测和动作延迟以实现高效学习

研究人员已正式确立了在合作性部分可观测多智能体系统中观测延迟和动作延迟之间的结构等价性。他们证明了这两种系统会产生相同的容许联合策略集，并且它们诱导的轨迹具有相同的分布，从而在去中心化部分可观测马尔可夫决策过程中得到相同的最优解。这种等价性允许任何混合延迟配置都可以简化为纯观测延迟系统，尽管实际学习动力学可能存在显著差异。
TOOL · CL_16233 · May 5 · 04:00

新研究表明高熵导致Dec-POMDP中的对称等变策略

一篇新论文探讨了高熵正则化如何在分布式部分可观察马尔可夫决策过程（Dec-POMDPs）中产生对称等变策略。研究表明，足够高的熵可以确保策略梯度流在不同初始化下收敛到兼容的联合策略。在Hanabi和Overcooked等环境中的实证测试表明，增加熵系数会显著影响跨局回报，并且在训练后通过贪婪化策略有改进的潜力。
RESEARCH · CL_11904 · May 1 · 04:00

新的C++引擎HASE在多智能体强化学习训练中达到33M步/秒

研究人员开发了一种名为捉迷藏引擎 (HASE) 的新C++引擎，旨在显著提高在去中心化、部分可观察环境中的强化学习智能体训练效率。通过利用面向数据设计和优化的内存处理，HASE在单个智能体上实现了高达每秒3300万步的惊人吞吐量。该引擎大大缩短了多智能体策略的训练时间，使得复杂的协作行为能在几分钟内学会。