研究人员开发了一个自动化框架,用于创建用于分子结构与自然语言描述对齐的大规模数据集。该方法使用基于规则的化学命名法解析器,从IUPAC名称生成详细的XML元数据,然后指导大语言模型生成准确的描述。生成的数据集包含约163,000个分子-描述对,专家评估显示其精确率高达98.6%。该资源有望推动依赖结构理解和分子-语言对齐的化学任务的发展。 AI
影响 该数据集可以显著提高大语言模型在化学结构推理方面的能力,从而加速药物发现和材料科学领域的研究与开发。
排序理由 该集群包含一篇详细介绍AI相关研究新方法和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →