DeepReinforce 推出了 Ornith-1.0,这是一个在 MIT 许可下提供的开源编码模型家族。这些模型基于 Gemma 4 和 Qwen 3.5 构建,专为代理编码任务设计,并在训练过程中独特地学习自身的强化学习脚手架。最大的模型 Ornith-1.0-397B 在 SWE-Bench Verified 基准测试中取得了 82.4% 的优异成绩。 AI
影响 此次发布为训练编码代理提供了一种新颖的方法,有可能提高它们在没有固定约束的情况下学习和适应的能力。
排序理由 具有新颖的自脚手架 RL 功能的新模型家族的开源发布。[lever_c_demoted from frontier_release: ic=2 ai=1.0]
- Claude Opus 4.7
- Claude Opus 4.8
- DeepReinforce
- Gemma 4
- GLM-5.2-744B
- Ornith-1.0
- Qwen 3.5
- SWE-Bench Verified
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →