PulseAugur
实时 13:26:07
English(EN) MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

开源模型以新的强化学习方法在策略游戏中击败 GPT-5

研究人员开发了一种新颖的强化学习技术,称为延迟每步奖励归因,旨在克服训练语言模型智能体进行复杂多智能体交互的挑战。该方法允许奖励仅在回合结束时计算和传播,排除无效步骤,并确保稳定、样本高效的训练。当应用于 MindGames Arena 基准测试时,采用这种方法训练的 80 亿参数开源模型,其表现显著优于包括 GPT-5 在内的更大专有系统,在公开和高效赛道上均获得第一名。 AI

影响 展示了一种在复杂环境中训练 AI 智能体的新方法,有望提高在多智能体策略交互中的性能。

排序理由 学术论文,详细介绍了新的强化学习方法及其在基准测试上的表现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Aliaksei Korshuk, Alexander Buyantuev, Ilya Makarov ·

    MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

    arXiv:2606.00017v1 Announce Type: new Abstract: Training language model agents for multi-agent strategic interaction presents a core difficulty: the quality of any action may depend on future events that never materialize, on moves that violate game rules, or on decisions made by…