PulseAugur
实时 04:25:57
English(EN) SWE-rebench leaderboard update: GLM-5.2, Qwen3.6-27B, Qwen3.6-35B-A3B, Gemma 4 31B and more + improved UI

SWE-rebench 排行榜新增 Claude Opus 4.8、GLM-5.2、Gemini 3.5 Flash

SWE-rebench 排行榜已更新,新增了模型并改进了用户界面,使得在编码任务上比较 AI 性能更加容易。值得注意的新增模型包括 Claude Opus 4.8 xhighGLM-5.2Gemini 3.5 Flash,以及多个 Qwen 和 DeepSeek 模型。此次更新还突出了本地和自托管模型的测试结果,鼓励社区就接下来要测试哪些模型提供意见。 AI

影响 为编码代理提供了更新的基准测试,影响开发任务的模型选择。

排序理由 排行榜更新,包含新的模型结果和用户界面改进。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SWE-rebench 排行榜新增 Claude Opus 4.8、GLM-5.2、Gemini 3.5 Flash

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/Fabulous_Pollution10 ·

    SWE-rebench 排行榜更新:GLM-5.2、Qwen3.6-27B、Qwen3.6-35B-A3B、Gemma 4 31B 等 + UI 改进

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1uknx14/swerebench_leaderboard_update_glm52_qwen3627b/"> <img alt="SWE-rebench leaderboard update: GLM-5.2, Qwen3.6-27B, Qwen3.6-35B-A3B, Gemma 4 31B and more + improved UI" src="https://external-preview.redd.…