研究人员引入了一个名为“思考的幻觉”的新框架,以更好地理解大型推理模型(LRM)的推理能力和局限性。该框架利用可控的谜题环境来分析LRM的内部推理过程,超越了仅关注最终答案准确性的传统评估方法。实验表明,LRM在问题复杂度高时会出现完全的准确率崩溃,并表现出一种奇怪的扩展极限,即尽管计算资源充足,推理努力却会减少。 AI
影响 引入了一种新颖的LLM评估方法,该方法能够探究超越简单准确性的推理能力,可能指导未来的模型开发。
排序理由 这是一篇详细介绍大型推理模型新评估框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 HN — machine learning stories 阅读 →
- Apple
- NeurIPS
- Iman Mirzadeh
- Keivan Alizadeh
- Large Reasoning Models
- Maxwell Horton
- Mehrdad Farajtabar
- Parshin Shojaee
- Samy Bengio
- TASER
- WMT24
- The Illusion of Thinking
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →