来自OpenAI和牛津大学的研究人员开发了一种名为LOLA(Learning with Opponent-Learning Awareness,学习对手学习意识)的新算法。该算法使强化学习代理能够考虑到其他代理也在学习和调整其策略的事实。LOLA代理可以发现利己但协作的策略,其表现优于当前通常导致纯粹自私行为的方法。该方法受到人类协作和“心智理论”概念的启发,使代理能够预测和影响他人的学习过程,以实现互利的成果。 AI
排序理由 OpenAI和牛津大学研究合作发布新算法(LOLA),论文中有详细介绍。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →