一个名为“奇点之门”的新基准已被发布,用于测试AI模型预测其训练数据截止日期后发生的重大科学发现的能力。在所有接受测试的前沿模型中,包括Anthropic的Claude Opus 4.8和OpenAI的GPT-5.5,没有一个能够完全预测一项发现,最高得分也只能获得部分分数。该基准旨在评估AI驱动的科学进步自主性的关键能力,并强调尽管高分令人鼓舞,但真正的预测能力仍然难以捉摸。 AI
影响 凸显了当前AI在预测新颖科学发现方面的局限性,表明需要对高级推理和预见能力进行进一步研究。
排序理由 该集群描述了一个新的基准及其结果,这是一项研究产出。
- Anthropic
- Claude Opus 4.6
- Claude Opus 4.7
- Claude Opus 4.8
- Claude Sonnet 4.6
- Gemini 3.1 Pro
- GPT-5.5
- OpenAI
- The Singularity Gate
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →