Epoch AI 开发了 MirrorCode 基准测试,用于评估AI模型在没有原始代码的情况下重建完整程序的能力。Anthropic 的 Claude Opus 4.7 表现强劲,在14小时内成功重建了一个16000行的工具包,解决率为56%。然而,目前的AI模型在最复杂的编程任务上仍然面临挑战。 AI
影响 该基准测试突显了当前AI在复杂代码生成方面的局限性,并为评估AI编程能力设定了新标准。
排序理由 该集群描述了一个新的AI模型基准测试以及特定模型在该基准测试上的表现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →