English(EN) Too long; didn't solve

研究将更长的提示和解决方案与大型语言模型数学推理失败联系起来

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

一篇题为“太长不解决”的新研究论文调查了提示和解决方案的长度对大型语言模型在数学推理任务中表现的影响。该研究利用了一个新构建的、由专家编写的数学问题对抗性数据集，发现提示长度和解决方案长度的增加都与模型失败率的升高相关。虽然经过难度调整的分析显示这些长度变量与模型分离之间存在微弱的负相关，但主要发现强调，结构长度是这些数学基准的经验难度的一个重要因素。 AI

影响这项研究表明，当前大型语言模型的评估方法可能对输入和输出长度敏感，可能需要进行调整以更稳健地评估推理能力。

排序理由该集群包含一篇发表在 arXiv 上的研究论文，详细介绍了大型语言模型在数学基准上的表现。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Luc\'ia M. Cabrera, Isaac Saxton-Knight, Jocelyn D'Arcy · 2026-06-19 04:00

Too long; didn't solve

arXiv:2604.07593v2 Announce Type: replace Abstract: Mathematical benchmarks consisting of a range of mathematics problems are widely used to evaluate the reasoning abilities of large language models, yet little is known about how their structural properties influence model behavi…

报道来源 [1]

Too long; didn't solve

相关实体

相关话题