最近的一项基准测试表明,GPT-5.5 在 ARC-AGI-2 基准测试中取得了 85.3% 的分数。这一结果将该模型的表现置于与该特定评估中的人类专家相当的水平。数据通过 LinkedIn 帖子分享。 AI
影响 在 ARC-AGI-2 基准测试中设定了新的性能基准,可能影响未来的模型评估。
排序理由 该集群报告了一个新模型的特定基准测试结果。
在 Mastodon — sigmoid.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →