English(EN) I Ran the 3B Model That Beat Gemini 3 Pro at Olympiad Math — It Shouldn't Work

微博的3B模型在数学奥赛中表现优于Gemini 3 Pro

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 06:38

一个拥有30亿参数的模型在AIME 2026数学竞赛中超越了谷歌的Gemini 3 Pro，得分分别为94.3和91.7。这个由微博开发并以MIT许可发布的较小模型，在复杂的数学推理方面表现出乎意料地有效，挑战了人们对参数量较少模型能力的预期。 AI

影响证明了更小、可能更高效的模型可以在复杂的推理任务上实现高性能，挑战了模型规模不断增大的趋势。

排序理由一篇研究论文详细介绍了模型在基准测试上的表现，并将其与已知模型进行了比较。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Towards AI TIER_1 English(EN) · Chew Loong Nian - AI ENGINEER · 2026-06-19 06:38

I Ran the 3B Model That Beat Gemini 3 Pro at Olympiad Math — It Shouldn't Work

<div class="medium-feed-item"><p class="medium-feed-snippet">A 3-billion-parameter model just scored 94.3 on AIME 2026. Gemini 3 Pro scored 91.7. The 3B model is from Weibo, it is MIT-licensed, and…</p><p class="medium-feed-link"><a href="https://pub.towardsai.net/i-ran-th…