OpenMythos 模型发布了其基准测试,展示了其在 SWE-bench Pro、CyberGym 和 cybench 上的表现。虽然该模型在其规模和网络安全重点方面表现良好,但仍有进一步改进的空间。此次发布还突显了 Qwen 3.6 27B 在 SWE-bench 结果与官方数据之间存在的差异,这归因于评估工具和问题过滤的差异。 AI
影响 提供了 OpenMythos 模型的性能数据,并指出了其他模型在基准测试报告中可能存在的问题。
排序理由 该集群报告了特定模型 OpenMythos 的基准测试发布,并讨论了其在各种基准测试中相对于其他模型的表现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →