新的语言模型 Ornith 35B 使用 WebBrain 的 frozen browser-agent planner benchmark 与 Gemma4 31B 和 Qwen3.6 35B 进行了基准测试。虽然 Ornith 35B 显示出潜力,并在对齐方面略优于 Qwen3.6 35B,但根据测试结果,Gemma4 31B 仍然是更优的选择。 AI
影响 此次基准测试为不同语言模型在代理规划任务上的相对性能提供了见解,有助于开发者为 AI 代理应用程序选择模型。
排序理由 该集群报告了 AI 模型之间的基准比较,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
- Gemma4 31B
- Ornith 35B
- Qwen3.6 35B
- WebBrain: Joint Neural Learning of Large-Scale Commonsense Knowledge
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →