PulseAugur
实时 10:12:29
English(EN) Ornith 35B claims to beat Gemma4 31B and Qwen3.6 35B on many fronts. We ran it through WebBrain's frozen browser-agent planner benchmark. Result: Ornith is soli

Ornith 35B 与 Gemma4 31B 和 Qwen3.6 35B 进行基准测试

新的语言模型 Ornith 35B 使用 WebBrain 的 frozen browser-agent planner benchmark 与 Gemma4 31BQwen3.6 35B 进行了基准测试。虽然 Ornith 35B 显示出潜力,并在对齐方面略优于 Qwen3.6 35B,但根据测试结果,Gemma4 31B 仍然是更优的选择。 AI

影响 此次基准测试为不同语言模型在代理规划任务上的相对性能提供了见解,有助于开发者为 AI 代理应用程序选择模型。

排序理由 该集群报告了 AI 模型之间的基准比较,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 Mastodon — fosstodon.org 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Ornith 35B 与 Gemma4 31B 和 Qwen3.6 35B 进行基准测试

报道来源 [1]

  1. Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] ·

    Ornith 35B claims to beat Gemma4 31B and Qwen3.6 35B on many fronts. We ran it through WebBrain's frozen browser-agent planner benchmark. Result: Ornith is soli

    Ornith 35B claims to beat Gemma4 31B and Qwen3.6 35B on many fronts. We ran it through WebBrain's frozen browser-agent planner benchmark. Result: Ornith is solid — edges Qwen 3.6 on alignment — but Gemma4 remains the better option. https:// webbrain.one/blog/ornith-35b-w ebbrain-…