研究人员推出SFBench,这是一个旨在评估AI系统所做声明的科学可行性的新基准。该数据集包含197个材料科学领域的声明,每个声明都由主题专家进行五点评分,并附有解释。与之前的基准不同,SFBench的声明是新创建的,以防止LLM训练重叠,并且解释是开放式的,需要AI模型进行更复杂的推理。还报告了使用近期GPT模型的初步结果。 AI
影响 该基准有望推动AI在推理和评估复杂声明的科学有效性方面的能力得到提升。
排序理由 该集群描述了一个用于AI评估的新基准数据集,发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →