PulseAugur
实时 23:35:26
实体 oMeBench

oMeBench

PulseAugur coverage of oMeBench — every cluster mentioning oMeBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_15988 ·

    新基准测试大语言模型在有机化学推理能力

    研究人员推出 oMeBench,一个旨在评估大型语言模型有机机理推理能力的新基准。该基准包含超过 10,000 个带注释的机理步骤和一个名为 oMeS 的动态评估框架,用于进行细粒度评分。初步分析显示,尽管当前的大语言模型表现出一定的化学直觉,但它们在一致的多步推理方面存在困难,尽管在该数据集上进行微调可显著提高性能。