研究人员推出 oMeBench,一个旨在评估大型语言模型有机机理推理能力的新基准。该基准包含超过 10,000 个带注释的机理步骤和一个名为 oMeS 的动态评估框架,用于进行细粒度评分。初步分析显示,尽管当前的大语言模型表现出一定的化学直觉,但它们在一致的多步推理方面存在困难,尽管在该数据集上进行微调可显著提高性能。 AI
影响 该基准测试有望推动具有更强大科学推理能力(尤其是在化学领域)的大语言模型的开发。
排序理由 这是一篇介绍用于评估大语言模型在特定科学领域能力的基准测试的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →