对五种 AI 模型(Opus、Grok、Sonnet、GPT-5.5 和 Gemini)进行了比较,评估了它们在 React 应用程序中审查未提交代码更改的能力。该应用程序包含 15 个故意植入的错误,从简单的语法错误到复杂的逻辑缺陷。Opus 执行了最全面的审查,识别出最多的问题,甚至执行了手动算术检查。Grok 和 Sonnet 表现强劲,其中 Grok 在涉及账户余额计算的一个特别困难的错误方面表现出色,而 Sonnet 则擅长处理与日期和 React 特定的问题。GPT-5.5 也成功识别了复杂的余额错误和几个其他逻辑错误,而 Gemini 3.1 Pro 的检测率最低。 AI
影响 为领先的 LLM 在软件开发任务(如代码审查)方面的当前能力提供了见解。
排序理由 对多种 AI 模型在特定任务(代码审查)上的比较,并附有量化结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →