实体 S^2-Bench

S^2-Bench

PulseAugur coverage of S^2-Bench — every cluster mentioning S^2-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_44965 · May 22 · 04:00

LLM在高级化学任务中的评估，配备新基准

研究人员开发了新的基准和方法来评估和增强大型语言模型（LLM）在化学相关任务中的能力。其中一种方法，Speak-to-Structure（S^2-Bench），专注于开放域分子生成，超越了简单的“一对一”映射，以评估创造性和多样化的分子设计能力。另一种方法引入了原子锚定的LLM，它使用独特的原子标识符来锚定链式思维推理以进行分子转化，在逆合成等任务中取得了很高的成功率，而无需进行特定任务的训练。
RESEARCH · CL_15893 · May 4 · 08:54

MolViBench基准测试评估大语言模型在药物发现分子编码任务上的能力

研究人员推出MolViBench，一个旨在评估大语言模型（LLMs）在分子编码任务中能力的新型基准测试。该基准测试弥补了现有评估的不足，这些评估要么缺乏化学知识，要么侧重于召回率而非可执行代码生成。MolViBench包含跨越五个认知层级的358个任务，涵盖12个真实世界的药物发现工作流程，并采用多层框架来评估代码的可执行性和化学正确性。