PulseAugur
实时 11:24:53
实体 Dec-POMDP

Dec-POMDP

PulseAugur coverage of Dec-POMDP — every cluster mentioning Dec-POMDP across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
最近 · 第 1/1 页 · 共 3 条
  1. TOOL · CL_20415 ·

    MARL research unifies observation and action delay for efficient learning

    Researchers have formally established the structural equivalence between observation delay and action delay in cooperative partially observable multi-agent systems. They demonstrated that both systems produce identical …

  2. TOOL · CL_16233 ·

    新研究表明高熵导致Dec-POMDP中的对称等变策略

    一篇新论文探讨了高熵正则化如何在分布式部分可观察马尔可夫决策过程(Dec-POMDPs)中产生对称等变策略。研究表明,足够高的熵可以确保策略梯度流在不同初始化下收敛到兼容的联合策略。在Hanabi和Overcooked等环境中的实证测试表明,增加熵系数会显著影响跨局回报,并且在训练后通过贪婪化策略有改进的潜力。

  3. RESEARCH · CL_11904 ·

    新的C++引擎HASE在多智能体强化学习训练中达到33M步/秒

    研究人员开发了一种名为捉迷藏引擎 (HASE) 的新C++引擎,旨在显著提高在去中心化、部分可观察环境中的强化学习智能体训练效率。通过利用面向数据设计和优化的内存处理,HASE在单个智能体上实现了高达每秒3300万步的惊人吞吐量。该引擎大大缩短了多智能体策略的训练时间,使得复杂的协作行为能在几分钟内学会。