研究人员开发了一种新颖的强化学习技术,称为延迟每步奖励归因,旨在克服训练语言模型智能体进行复杂多智能体交互的挑战。该方法允许奖励仅在回合结束时计算和传播,排除无效步骤,并确保稳定、样本高效的训练。当应用于 MindGames Arena 基准测试时,采用这种方法训练的 80 亿参数开源模型,其表现显著优于包括 GPT-5 在内的更大专有系统,在公开和高效赛道上均获得第一名。 AI
影响 展示了一种在复杂环境中训练 AI 智能体的新方法,有望提高在多智能体策略交互中的性能。
排序理由 学术论文,详细介绍了新的强化学习方法及其在基准测试上的表现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →