一位用户正在为 6x6 版奥赛罗训练 AlphaZero 模型,但遇到了性能问题。尽管模型之间相互改进,但它们并不比基准代理显著更好,对贪婪代理的胜率低于 10%。用户已经分析了训练数据,包括价值损失、预测熵和策略分歧,并正在寻求关于超参数调整的建议,以解决模型的糟糕性能。 AI
影响 用户寻求改进强化学习代理的训练方法。
排序理由 用户正在分享模型训练数据和性能问题的研究/分析。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →