实体 In2AI

In2AI

PulseAugur coverage of In2AI — every cluster mentioning In2AI across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_65308 · Jun 2 · 04:00

开源模型以新的强化学习方法在策略游戏中击败 GPT-5

研究人员开发了一种新颖的强化学习技术，称为延迟每步奖励归因，旨在克服训练语言模型智能体进行复杂多智能体交互的挑战。该方法允许奖励仅在回合结束时计算和传播，排除无效步骤，并确保稳定、样本高效的训练。当应用于 MindGames Arena 基准测试时，采用这种方法训练的 80 亿参数开源模型，其表现显著优于包括 GPT-5 在内的更大专有系统，在公开和高效赛道上均获得第一名。