English(EN) “Car Wash” test with 53 models

Opper发现，大多数AI模型未能通过简单的“洗车”推理测试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-02-23 20:16

一项名为“洗车测试”的新基准显示，许多领先的AI模型在基本推理方面存在困难。当被问及是步行还是开车50米去洗车时，53个测试模型中有42个错误地建议步行。即使是Claude Sonnet 4.5和GPT-5.2等顶级模型，在单次运行中也未能通过测试。一致性测试显示进一步的性能下降，只有五个模型在十次尝试中都能可靠地正确回答，这凸显了实际推理能力方面存在的重大差距。 AI

影响凸显了当前LLM中存在的关键推理缺陷，表明需要改进超越模式匹配的逻辑推理能力。

排序理由这是一篇介绍新基准和现有AI模型评估的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 HN — AI startup stories 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

HN — AI startup stories TIER_1 English(EN) · felix089 · 2026-02-23 20:16

53个模型进行“洗车”测试

报道来源 [1]

53个模型进行“洗车”测试

相关实体

相关话题