PulseAugur
实时 02:21:49
English(EN) OpenMythos benchmarks

OpenMythos 基准测试发布,凸显 Qwen 3.6 的差异

OpenMythos 模型发布了其基准测试,展示了其在 SWE-bench Pro、CyberGym 和 cybench 上的表现。虽然该模型在其规模和网络安全重点方面表现良好,但仍有进一步改进的空间。此次发布还突显了 Qwen 3.6 27B 在 SWE-bench 结果与官方数据之间存在的差异,这归因于评估工具和问题过滤的差异。 AI

影响 提供了 OpenMythos 模型的性能数据,并指出了其他模型在基准测试报告中可能存在的问题。

排序理由 该集群报告了特定模型 OpenMythos 的基准测试发布,并讨论了其在各种基准测试中相对于其他模型的表现。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

OpenMythos 基准测试发布,凸显 Qwen 3.6 的差异

报道来源 [2]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/RealKingNish ·

    OpenMythos Benchmarks

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1udq9p6/openmythos_benchmarks/"> <img alt="OpenMythos Benchmarks" src="https://preview.redd.it/p1ghh67py29h1.png?width=640&amp;crop=smart&amp;auto=webp&amp;s=a7277828dcd6e5fd5d0be6dec3246ff60d63cf40" title="Op…

  2. r/LocalLLaMA TIER_1 English(EN) · /u/RealKingNish ·

    OpenMythos 性能测试

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1udq2ac/openmythos_benchmarks/"> <img alt="OpenMythos benchmarks" src="https://preview.redd.it/z7q7df2aw29h1.png?width=640&amp;crop=smart&amp;auto=webp&amp;s=cd790d8d81e0d1f2268182c79f1eeef13b4b5b84" title="Op…