English(EN) MolViBench: Evaluating LLMs on Molecular Vibe Coding

MolViBench基准测试评估大语言模型在药物发现分子编码任务上的能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-04 08:54

研究人员推出MolViBench，一个旨在评估大语言模型（LLMs）在分子编码任务中能力的新型基准测试。该基准测试弥补了现有评估的不足，这些评估要么缺乏化学知识，要么侧重于召回率而非可执行代码生成。MolViBench包含跨越五个认知层级的358个任务，涵盖12个真实世界的药物发现工作流程，并采用多层框架来评估代码的可执行性和化学正确性。 AI

影响为大语言模型在分子发现领域的评估树立了新标准，可能指导未来科学应用的模型开发。

排序理由该集群描述了一篇介绍用于评估大语言模型在特定领域能力的基准测试的新学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Jiatong Li, Yuxuan Ren, Weida Wang, Changmeng Zheng, Xiao-yong Wei, Qing Li, Yatao Bian · 2026-05-05 04:00

MolViBench：评估LLM在分子振动编码上的表现

arXiv:2605.02351v1 Announce Type: new Abstract: Molecular Vibe Coding, a paradigm where chemists interact with LLMs to generate executable programs for molecular tasks, has emerged as a flexible alternative to chemical agents with predefined tools, enabling chemists to express ar…
arXiv cs.CL TIER_1 English(EN) · Yatao Bian · 2026-05-04 08:54

MolViBench：评估LLM在分子振动编码上的表现

Molecular Vibe Coding, a paradigm where chemists interact with LLMs to generate executable programs for molecular tasks, has emerged as a flexible alternative to chemical agents with predefined tools, enabling chemists to express arbitrarily complex, customized workflows. Unlike …

报道来源 [2]

MolViBench：评估LLM在分子振动编码上的表现

MolViBench：评估LLM在分子振动编码上的表现

相关实体

相关话题