PulseAugur
实时 04:29:26
实体 Hanabi

Hanabi

PulseAugur coverage of Hanabi — every cluster mentioning Hanabi across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_16233 ·

    新研究表明高熵导致Dec-POMDP中的对称等变策略

    一篇新论文探讨了高熵正则化如何在分布式部分可观察马尔可夫决策过程(Dec-POMDPs)中产生对称等变策略。研究表明,足够高的熵可以确保策略梯度流在不同初始化下收敛到兼容的联合策略。在Hanabi和Overcooked等环境中的实证测试表明,增加熵系数会显著影响跨局回报,并且在训练后通过贪婪化策略有改进的潜力。

  2. RESEARCH · CL_06936 ·

    大语言模型推理通过图集成得到改进,而不仅仅是图阅读

    研究人员探讨了显式信念图如何在合作多智能体推理任务(特别是纸牌游戏 Hanabi)中影响大语言模型(LLM)的性能。他们的发现表明,集成架构至关重要;图表对于强大的模型来说仅仅是上下文,但对于较弱的模型来说则是必不可少的。观察到一种被称为“规划者违抗”的现象,即大语言模型会覆盖正确的建议,这种现象在 Gemini 和 Llama 等模型家族中存在差异。研究还强调,通过结合信念图组件实现的智能体间约定,其性能明显优于单独干预。