PulseAugur
实时 18:40:36
English(EN) [AINews] FrontierCode: Benchmarking for Code Quality over Slop

Cognition 的 FrontierCode 基准揭示 AI 代码质量差距

Cognition 发布了 FrontierCode,这是一个旨在评估 AI 生成代码的质量和可合并性的新基准。与之前侧重于通过单元测试的基准不同,FrontierCode 评估回归安全性、简洁性和可维护性等因素,任务完成需要超过 40 小时。早期结果表明,即使是 Opus 4.8 等顶级模型在最难的级别上也得分较低,这表明当前 AI 在生成生产就绪代码方面的能力不如之前所认为的那样先进。 AI

影响 凸显了当前 AI 在生成生产就绪代码方面的能力局限性,表明需要更稳健的评估方法。

排序理由 该集群描述了一个新的基准及其初步发现,这是一个研究里程碑。

在 Latent Space (swyx) 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

Cognition 的 FrontierCode 基准揭示 AI 代码质量差距

报道来源 [2]

  1. Latent Space (swyx) TIER_1 English(EN) ·

    [AINews] FrontierCode: Benchmarking for Code Quality over Slop

    We made a thing!

  2. r/singularity TIER_2 English(EN) · /u/acoolrandomusername ·

    FrontierCode: a coding eval that raises the bar for difficulty & quality.

    <table> <tr><td> <a href="https://www.reddit.com/r/singularity/comments/1u0k192/frontiercode_a_coding_eval_that_raises_the_bar/"> <img alt="FrontierCode: a coding eval that raises the bar for difficulty &amp; quality." src="https://preview.redd.it/ihk4ib8nd46h1.png?width=640&amp;…