研究人员推出了SMDD-Bench,这是一个旨在评估大型语言模型代理在小分子药物设计能力的新基准。该基准包含502个任务实例,涵盖五个类别,包括骨架跳跃和先导优化,涉及102个独特的蛋白质靶点。即使是表现最好的模型GPT-5.4,也只能解决其中40.2%的复杂任务,这凸显了在实现完全自主的计算药物设计方面仍然存在重大挑战。 AI
影响 凸显了大型语言模型代理在复杂科学领域中的当前局限性,为自主药物设计的未来研究指明方向。
排序理由 该集群描述了一篇介绍用于评估大型语言模型在特定科学领域能力的基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →