一篇题为“太长不解决”的新研究论文调查了提示和解决方案的长度对大型语言模型在数学推理任务中表现的影响。该研究利用了一个新构建的、由专家编写的数学问题对抗性数据集,发现提示长度和解决方案长度的增加都与模型失败率的升高相关。虽然经过难度调整的分析显示这些长度变量与模型分离之间存在微弱的负相关,但主要发现强调,结构长度是这些数学基准的经验难度的一个重要因素。 AI
影响 这项研究表明,当前大型语言模型的评估方法可能对输入和输出长度敏感,可能需要进行调整以更稳健地评估推理能力。
排序理由 该集群包含一篇发表在 arXiv 上的研究论文,详细介绍了大型语言模型在数学基准上的表现。 [lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX Code Finder for Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Influence Flower
- Lucía Magalí Cabrera
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →