English(EN) ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

新的ASyMOB基准测试，用于测试LLM超越记忆的数学推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员推出了ASyMOB，一个旨在评估大型语言模型符号数学能力的新基准测试。该数据集包含跨越不同数学领域的超过35,000个已验证的问题，重点是通过符号和数值转换来测试泛化能力。初步评估显示，大多数模型在微小扰动下表现不佳，尽管顶级系统表现出更强的鲁棒性，并且代码工具的集成显著稳定了性能。 AI

影响为LLM在符号数学领域的评估提供了更严格的标准，推动其发展方向从单纯记忆转向真正的推理能力。

排序理由发布新学术论文，介绍用于评估LLM能力的基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Michael Shalyt, Rotem Elimelech, Ido Kaminer · 2026-06-10 04:00

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

arXiv:2505.23851v2 Announce Type: replace-cross Abstract: Large language models (LLMs) are increasingly applied to symbolic mathematics, yet existing evaluations often conflate pattern memorization with genuine reasoning. To address this gap, we present \textbf{ASyMOB}, a high-re…