PulseAugur
实时 14:27:30
实体 In2AI

In2AI

PulseAugur coverage of In2AI — every cluster mentioning In2AI across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_65308 ·

    开源模型以新的强化学习方法在策略游戏中击败 GPT-5

    研究人员开发了一种新颖的强化学习技术,称为延迟每步奖励归因,旨在克服训练语言模型智能体进行复杂多智能体交互的挑战。该方法允许奖励仅在回合结束时计算和传播,排除无效步骤,并确保稳定、样本高效的训练。当应用于 MindGames Arena 基准测试时,采用这种方法训练的 80 亿参数开源模型,其表现显著优于包括 GPT-5 在内的更大专有系统,在公开和高效赛道上均获得第一名。