PulseAugur
实时 03:33:39
实体 SPM-Bench

SPM-Bench

PulseAugur coverage of SPM-Bench — every cluster mentioning SPM-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_62788 ·

    新的基准测试对大语言模型进行扫描探针显微镜能力测试

    研究人员开发了SPM-Bench,这是一个旨在评估大语言模型(LLMs)在扫描探针显微镜领域能力的新基准。该基准利用自动数据合成管道,从科学论文中提取图像-文本对,确保高质量和高效率。SPM-Bench引入了一种新颖的评估指标SIP-F1,该指标不仅对模型性能进行排名,还能对其推理“个性”进行分类,并识别其在复杂物理场景中的真正局限性。