PulseAugur
实时 17:45:30
实体 ProjectionBench

ProjectionBench

PulseAugur coverage of ProjectionBench — every cluster mentioning ProjectionBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
时间线
  1. 2026-05-28 research_milestone Researchers introduced ProjectionBench, a new benchmark for evaluating LLMs' scientific hypothesis generation capabilities. 来源
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_58531 ·

    新基准测试大型语言模型生成科学假设的能力

    一个名为 ProjectionBench 的新基准已被开发出来,用于评估大型语言模型生成科学假设的能力。该框架逐步披露研究论文中的信息,允许模型在每个阶段生成假设。该基准用于评估 GPT-5.4、GPT-5、Gemini 2.5 pro 和 Gemini 3.1 pro preview 在 45 篇论文上的表现。结果表明,GPT-5.4 和 Gemini 3.1 pro 的性能优于其前代模型,其中 GPT-5.4 在信息有限的情况下仍…