实体 GTBench

GTBench

PulseAugur coverage of GTBench — every cluster mentioning GTBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_68274 · Jun 3 · 04:00

新的GTBench基准测试大型语言模型作为数学研究助手

一个名为GTBench的新基准已被开发出来，用于评估大型语言模型作为数学研究助手，特别是在图论领域的能力。该基准包含63个按难度分类的问题，涵盖从本科概念到研究生证明构建的各个级别。在测试中，GPT-5在所有级别上都表现出色，而Llama 3.3等其他模型则表现出显著下降，尤其是在复杂的证明任务上。