PulseAugur
实时 03:27:21
实体 SFBench

SFBench

PulseAugur coverage of SFBench — every cluster mentioning SFBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_117489 ·

    新的SFBench数据集评估AI的科学声明可行性

    研究人员推出SFBench,这是一个旨在评估AI系统所做声明的科学可行性的新基准。该数据集包含197个材料科学领域的声明,每个声明都由主题专家进行五点评分,并附有解释。与之前的基准不同,SFBench的声明是新创建的,以防止LLM训练重叠,并且解释是开放式的,需要AI模型进行更复杂的推理。还报告了使用近期GPT模型的初步结果。