研究人员推出了一种新颖的用于改进双人零和博弈中自博弈的方法,名为GARIP。与使用固定或定期更新参考的方法不同,GARIP利用过去策略的运行平均值。该方法在理论上被证明可以最小化参考值的峰值滞后,从而实现更稳定的收敛。在包括矩阵博弈以及Connect Four和Othello等棋盘博弈在内的各种博弈上的实验表明,GARIP在鲁棒性和默认超参数设置方面,表现与现有方法相当或更优。 AI
影响 这项研究可能带来更高效的竞争环境中AI智能体的训练。
排序理由 学术论文,详细介绍了一种新的博弈论和AI方法。[lever_c_demoted from research: ic=1 ai=1.0]
在 arXiv cs.MA (Multiagent) 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →