一个名为GTBench的新基准已被开发出来,用于评估大型语言模型作为数学研究助手,特别是在图论领域的能力。该基准包含63个按难度分类的问题,涵盖从本科概念到研究生证明构建的各个级别。在测试中,GPT-5在所有级别上都表现出色,而Llama 3.3等其他模型则表现出显著下降,尤其是在复杂的证明任务上。 AI
影响 为大型语言模型在高等数学中的推理能力建立了新的评估标准,突显了性能差异。
排序理由 该集群包含一篇介绍大型语言模型新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Claude Sonnet 4.6
- Diestel's Graph Theory
- Gemini 2.5 Flash-Lite
- GPT-5
- GTBench
- Llama 3.3 70B
- Mistral Large 3
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →