PulseAugur
实时 13:40:03
English(EN) ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

新的ASyMOB基准测试,用于测试LLM超越记忆的数学推理能力

研究人员推出了ASyMOB,一个旨在评估大型语言模型符号数学能力的新基准测试。该数据集包含跨越不同数学领域的超过35,000个已验证的问题,重点是通过符号和数值转换来测试泛化能力。初步评估显示,大多数模型在微小扰动下表现不佳,尽管顶级系统表现出更强的鲁棒性,并且代码工具的集成显著稳定了性能。 AI

影响 为LLM在符号数学领域的评估提供了更严格的标准,推动其发展方向从单纯记忆转向真正的推理能力。

排序理由 发布新学术论文,介绍用于评估LLM能力的基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Michael Shalyt, Rotem Elimelech, Ido Kaminer ·

    ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

    arXiv:2505.23851v2 Announce Type: replace-cross Abstract: Large language models (LLMs) are increasingly applied to symbolic mathematics, yet existing evaluations often conflate pattern memorization with genuine reasoning. To address this gap, we present \textbf{ASyMOB}, a high-re…