PulseAugur
实时 19:13:07
English(EN) ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure

新基准测试大型语言模型生成科学假设的能力

一个名为 ProjectionBench 的新基准已被开发出来,用于评估大型语言模型生成科学假设的能力。该框架逐步披露研究论文中的信息,允许模型在每个阶段生成假设。该基准用于评估 GPT-5.4GPT-5Gemini 2.5 proGemini 3.1 pro preview 在 45 篇论文上的表现。结果表明,GPT-5.4 和 Gemini 3.1 pro 的性能优于其前代模型,其中 GPT-5.4 在信息有限的情况下仍能与地面真实结论保持高度一致。 AI

影响 该基准有望推动能够进行真正科学发现和推理的大型语言模型的发展。

排序理由 该集群描述了一篇介绍用于评估大型语言模型基准的新学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新基准测试大型语言模型生成科学假设的能力

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · A. J. Lew (Unreasonable Labs), Y. Cao (Unreasonable Labs), M. J. Buehler (Unreasonable Labs) ·

    ProjectionBench:在渐进式信息披露下评估LLM的科学假设生成能力

    arXiv:2605.30284v1 Announce Type: new Abstract: Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep rese…

  2. arXiv cs.AI TIER_1 English(EN) · M. J. Buehler ·

    ProjectionBench:在渐进式信息披露下评估LLM的科学假设生成

    Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innova…