一个名为 ProjectionBench 的新基准已被开发出来,用于评估大型语言模型生成科学假设的能力。该框架逐步披露研究论文中的信息,允许模型在每个阶段生成假设。该基准用于评估 GPT-5.4、GPT-5、Gemini 2.5 pro 和 Gemini 3.1 pro preview 在 45 篇论文上的表现。结果表明,GPT-5.4 和 Gemini 3.1 pro 的性能优于其前代模型,其中 GPT-5.4 在信息有限的情况下仍能与地面真实结论保持高度一致。 AI
影响 该基准有望推动能够进行真正科学发现和推理的大型语言模型的发展。
排序理由 该集群描述了一篇介绍用于评估大型语言模型基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →