一项研究工作已将 VibeThinker 模型从 15 亿参数扩展到 30 亿参数,在数学和编码等特定领域取得了与前沿模型相当的性能。VibeThinker-3B 模型在 AIME'26、LiveCodeBench v6、IMO-AnswerBench 和 IFEval 等基准测试中表现强劲,并在最近的 LeetCode 编程竞赛中取得了 96.1% 的成功率。研究人员指出,虽然小型模型在通用应用方面存在局限性,但它们可以通过参数密集型领域中具有清晰验证信号的途径实现高级推理,从而补充传统的扩展定律。 AI
影响 证明了小型、参数密集型模型可以在专业领域实现前沿水平的推理,可能为比大型模型更具成本效益的替代方案。
排序理由 该集群描述了一篇详细介绍小型语言模型 (SLM) 扩展及其在特定基准测试上性能的研究论文,符合研究类别。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →