一位程序员展示了,一个简单的Python脚本,运行在一台十年前的AMD CPU上,可以在新的ARC-AGI-3基准测试中取得4.76%的成绩。这一壮举凸显了当前大型语言模型的低效性,它们在基准测试的动态、无指令环境中挣扎,并且常常得分零。该脚本利用了基本的计算机视觉技术,如质心检测,来解决空间谜题,尽管其资源需求极低且没有使用AI token,但表现优于许多AI模型。 AI
影响 证明了在特定基准测试中,传统编程可以优于当前的LLM,凸显了LLM的低效性。
排序理由 该集群描述了一种基准测试的新方法,展示了一种非AI方法在与AI模型的竞争中的表现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →