研究人员推出了SupraBench,这是一个旨在评估大语言模型(LLMs)在超分子化学领域能力的新基准。该基准解决了对LLMs在结合亲和力预测和主客体推理等任务上进行系统性评估的需求,这些任务对于加速分子组装设计至关重要。与SupraBench一同发布的还有一个名为SupraPMC的1600万token语料库,以帮助LLMs适应这一专业领域。初步的基准测试显示,各种LLMs仍有很大的改进空间,领域适应性根据任务的不同,结果喜忧参半。 AI
排序理由 该集群描述了一个新的学术基准和相关数据集的发布,用于评估大语言模型在特定科学领域的表现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →