English(EN) OpenMythos benchmarks

OpenMythos 基准测试发布，凸显 Qwen 3.6 的差异

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-23 18:56

OpenMythos 模型发布了其基准测试，展示了其在 SWE-bench Pro、CyberGym 和 cybench 上的表现。虽然该模型在其规模和网络安全重点方面表现良好，但仍有进一步改进的空间。此次发布还突显了 Qwen 3.6 27B 在 SWE-bench 结果与官方数据之间存在的差异，这归因于评估工具和问题过滤的差异。 AI

影响提供了 OpenMythos 模型的性能数据，并指出了其他模型在基准测试报告中可能存在的问题。

排序理由该集群报告了特定模型 OpenMythos 的基准测试发布，并讨论了其在各种基准测试中相对于其他模型的表现。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

r/LocalLLaMA TIER_1 English(EN) · /u/RealKingNish · 2026-06-23 19:04

OpenMythos Benchmarks

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1udq9p6/openmythos_benchmarks/"> <img alt="OpenMythos Benchmarks" src="https://preview.redd.it/p1ghh67py29h1.png?width=640&crop=smart&auto=webp&s=a7277828dcd6e5fd5d0be6dec3246ff60d63cf40" title="Op…
r/LocalLLaMA TIER_1 English(EN) · /u/RealKingNish · 2026-06-23 18:56

OpenMythos 性能测试

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1udq2ac/openmythos_benchmarks/"> <img alt="OpenMythos benchmarks" src="https://preview.redd.it/z7q7df2aw29h1.png?width=640&crop=smart&auto=webp&s=cd790d8d81e0d1f2268182c79f1eeef13b4b5b84" title="Op…

报道来源 [2]

OpenMythos Benchmarks

OpenMythos 性能测试

相关实体

相关话题