English(EN) The Illusion of Thinking: Strengths and Limitations of Reasoning Models

苹果研究人员探究大型推理模型的思考极限

作者 PulseAugur 编辑部 · [1 个来源] · 2025-06-08 07:24

研究人员引入了一个名为“思考的幻觉”的新框架，以更好地理解大型推理模型（LRM）的推理能力和局限性。该框架利用可控的谜题环境来分析LRM的内部推理过程，超越了仅关注最终答案准确性的传统评估方法。实验表明，LRM在问题复杂度高时会出现完全的准确率崩溃，并表现出一种奇怪的扩展极限，即尽管计算资源充足，推理努力却会减少。 AI

影响引入了一种新颖的LLM评估方法，该方法能够探究超越简单准确性的推理能力，可能指导未来的模型开发。

排序理由这是一篇详细介绍大型推理模型新评估框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 HN — machine learning stories 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

HN — machine learning stories TIER_1 English(EN) · sunshinerag · 2025-06-08 07:24

思维的幻觉：推理模型的优势与局限性

报道来源 [1]

思维的幻觉：推理模型的优势与局限性

相关实体

相关话题