Semgrep的内部基准测试表明,其GLM-5.2模型在网络安全相关任务上的表现优于Anthropic的Claude。Semgrep开发的Mythos模型与Claude进行了测试,GLM-5.2在该特定领域表现出更优越的性能。此次评估凸显了领先AI模型之间的竞争格局,即使在专业领域也是如此。 AI
影响 表明专业模型在网络安全等细分领域的应用中可能优于通用模型。
排序理由 内部基准测试结果,比较两个AI模型在特定任务上的表现。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →