PulseAugur
实时 12:00:39

新数据集捕捉协作数学研究讨论

研究人员推出 CrowdMath,一个包含来自协作数学研究项目中的 164 个已标注讨论链的新数据集。该数据集捕捉了开放性问题解决的细微差别,包括现有基准中缺失的部分论证、错误识别和推理修复。虽然前沿模型在预测数学讨论流程方面显示出潜力,但它们在准确分类这些协作努力中个体贡献的功能角色方面仍存在困难。 AI

影响 该数据集可能会推动前沿模型更好地理解和参与复杂的协作问题解决场景。

排序理由 该集群包含一篇介绍用于评估 AI 在协作环境中数学推理能力的新型数据集的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Sherin Muckatira, Jesse Geneson, Slava Gerovitch, Pavel Etingof, Mikhail Gronas, Anna Rumshisky ·

    CrowdMath: 一个众包数学研究讨论数据集

    arXiv:2606.06526v1 Announce Type: new Abstract: Large language models have made substantial progress on mathematical reasoning, but existing benchmarks typically evaluate well-specified problems with final answers, step-by-step solutions, or complete proofs. They do not capture c…