English(EN) A Large-Scale Dataset for Molecular Structure-Language Description via a Rule-Regularized Method

新数据集可自动实现分子结构与语言描述的对齐，服务于大语言模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了一个自动化框架，用于创建用于分子结构与自然语言描述对齐的大规模数据集。该方法使用基于规则的化学命名法解析器，从IUPAC名称生成详细的XML元数据，然后指导大语言模型生成准确的描述。生成的数据集包含约163,000个分子-描述对，专家评估显示其精确率高达98.6%。该资源有望推动依赖结构理解和分子-语言对齐的化学任务的发展。 AI

影响该数据集可以显著提高大语言模型在化学结构推理方面的能力，从而加速药物发现和材料科学领域的研究与开发。

排序理由该集群包含一篇详细介绍AI相关研究新方法和数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Feiyang Cai, Guijuan He, Yi Hu, Jingjing Wang, Joshua Luo, Tianyu Zhu, Srikanth Pilla, Gang Li, Ling Liu, Feng Luo · 2026-06-30 04:00

一种基于规则正则化方法的分子结构-语言描述大规模数据集

arXiv:2602.02320v4 Announce Type: replace-cross Abstract: Molecular function is largely determined by structure. Accurately aligning molecular structure with natural language is therefore essential for enabling large language models (LLMs) to reason about downstream chemical task…

报道来源 [1]

一种基于规则正则化方法的分子结构-语言描述大规模数据集

相关实体

相关话题