实体 Hanabi

Hanabi

PulseAugur coverage of Hanabi — every cluster mentioning Hanabi across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_93838 · Jun 16 · 04:00

研究发现MARL基准测试可能不需要复杂的推理

一篇新发表在arXiv上的研究论文对当前合作式多智能体强化学习（MARL）基准测试的有效性提出了质疑。该研究引入了诊断工具来评估智能体是否真正采用了Dec-POMDP推理，这涉及到推断隐藏状态并基于局部信息进行协调。研究结果表明，许多流行的MARL基准测试并不需要这种复杂的推理，简单的反应式策略通常也能取得相当的性能。该研究认为，当前的训练范式可能导致对进展的评估过高，并呼吁在该领域进行更严格的环境设计和评估。
TOOL · CL_16233 · May 5 · 04:00

新研究表明高熵导致Dec-POMDP中的对称等变策略

一篇新论文探讨了高熵正则化如何在分布式部分可观察马尔可夫决策过程（Dec-POMDPs）中产生对称等变策略。研究表明，足够高的熵可以确保策略梯度流在不同初始化下收敛到兼容的联合策略。在Hanabi和Overcooked等环境中的实证测试表明，增加熵系数会显著影响跨局回报，并且在训练后通过贪婪化策略有改进的潜力。
RESEARCH · CL_06936 · Apr 28 · 04:00

大语言模型推理通过图集成得到改进，而不仅仅是图阅读

研究人员探讨了显式信念图如何在合作多智能体推理任务（特别是纸牌游戏 Hanabi）中影响大语言模型（LLM）的性能。他们的发现表明，集成架构至关重要；图表对于强大的模型来说仅仅是上下文，但对于较弱的模型来说则是必不可少的。观察到一种被称为“规划者违抗”的现象，即大语言模型会覆盖正确的建议，这种现象在 Gemini 和 Llama 等模型家族中存在差异。研究还强调，通过结合信念图组件实现的智能体间约定，其性能明显优于单独干预。