PulseAugur
实时 21:50:40
English(EN) oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

新基准测试大语言模型在有机化学推理能力

研究人员推出 oMeBench,一个旨在评估大型语言模型有机机理推理能力的新基准。该基准包含超过 10,000 个带注释的机理步骤和一个名为 oMeS 的动态评估框架,用于进行细粒度评分。初步分析显示,尽管当前的大语言模型表现出一定的化学直觉,但它们在一致的多步推理方面存在困难,尽管在该数据集上进行微调可显著提高性能。 AI

影响 该基准测试有望推动具有更强大科学推理能力(尤其是在化学领域)的大语言模型的开发。

排序理由 这是一篇介绍用于评估大语言模型在特定科学领域能力的基准测试的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准测试大语言模型在有机化学推理能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Ruiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji ·

    oMeBench:迈向有机机理阐明与推理中大型语言模型鲁棒性基准测试

    arXiv:2510.07731v3 Announce Type: replace-cross Abstract: Organic reaction mechanisms are the stepwise elementary reactions by which reactants form intermediates and products, and are fundamental to understanding chemical reactivity and designing new molecules and reactions. Alth…