实体 SWEBench

SWEBench

PulseAugur coverage of SWEBench — every cluster mentioning SWEBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_78804 · Jun 8 · 20:37

Cognition 的 FrontierCode 基准揭示 AI 代码质量差距

Cognition 发布了 FrontierCode，这是一个旨在评估 AI 生成代码的质量和可合并性的新基准。与之前侧重于通过单元测试的基准不同，FrontierCode 评估回归安全性、简洁性和可维护性等因素，任务完成需要超过 40 小时。早期结果表明，即使是 Opus 4.8 等顶级模型在最难的级别上也得分较低，这表明当前 AI 在生成生产就绪代码方面的能力不如之前所认为的那样先进。