PulseAugur
实时 04:05:46
English(EN) Chinese researchers released VibeThinker-3B, a 3B dense reasoning model matching far larger models on maths and coding. Built on Qwen2.5-Coder-3B with Spectrum-

中国研究人员发布 VibeThinker-3B,一个可媲美更大模型的紧凑型 3B 模型

中国研究人员开发了 VibeThinker-3B,一个紧凑型的 30 亿参数密集推理模型。该模型基于 Qwen2.5-Coder-3B 构建,并利用 Spectrum-to-Signal 训练,在数学和编码任务上取得了与更大模型相当的性能。值得注意的是,它在 AIME26 基准测试中得分 94.3%,可与规模大得多的 DeepSeek V3.2 模型相媲美,并且可以在单个 GPU 上运行。 AI

影响 证明了小型、高效训练的模型可以在复杂的推理任务上取得有竞争力的性能,从而可能降低高级人工智能开发的门槛。

排序理由 新模型发布,来自一个研究小组,而非前沿实验室。[lever_c_demoted from research: ic=1 ai=1.0]

在 Mastodon — fosstodon.org 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

中国研究人员发布 VibeThinker-3B,一个可媲美更大模型的紧凑型 3B 模型

报道来源 [1]

  1. Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] ·

    中国研究人员发布 VibeThinker-3B,一款 3B 密集推理模型,在数学和编码方面可媲美更大模型。基于 Qwen2.5-Coder-3B 和 Spectrum-

    Chinese researchers released VibeThinker-3B, a 3B dense reasoning model matching far larger models on maths and coding. Built on Qwen2.5-Coder-3B with Spectrum-to-Signal training, it scores 94.3% on AIME26 - comparable to DeepSeek V3.2 (671B). Runs on a single GPU. MIT licensed. …