PulseAugur
实时 19:47:01
实体 SWEBench

SWEBench

PulseAugur coverage of SWEBench — every cluster mentioning SWEBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_78804 ·

    Cognition 的 FrontierCode 基准揭示 AI 代码质量差距

    Cognition 发布了 FrontierCode,这是一个旨在评估 AI 生成代码的质量和可合并性的新基准。与之前侧重于通过单元测试的基准不同,FrontierCode 评估回归安全性、简洁性和可维护性等因素,任务完成需要超过 40 小时。早期结果表明,即使是 Opus 4.8 等顶级模型在最难的级别上也得分较低,这表明当前 AI 在生成生产就绪代码方面的能力不如之前所认为的那样先进。