新的基准测试如DeepSWE正在揭示专有和开源AI模型之间存在显著的性能差距。这种差异目前令开源社区感到失望,他们希望看到能够帮助其赶上的进展。目前的基准测试表明能力上存在巨大差异,这促使人们呼吁在开源AI开发方面取得更多进展。 AI
影响 凸显了日益增长的性能鸿沟,可能影响开源AI未来的发展重点。
排序理由 该集群讨论了新的基准测试及其对AI模型性能的影响,属于研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →