English(EN) VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO https:// arxiv.org/abs/2606.16140 # HackerNews # VibeThinker # Opus4 .5 # AI #

VibeThinker 3B 模型在推理基准测试中超越 Opus 4.5

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-23 03:09

一款名为 VibeThinker 的新型 30 亿参数模型在推理能力方面表现优于 Anthropic 的 Opus 4.5。该模型通过监督微调 (SFT) 和一种称为 GRPO 的技术的创新组合实现了这一性能。研究结果已发布在 arXiv 上。 AI

影响这项研究可能预示着高度强大的小型模型的发展趋势，有望降低高级推理任务的计算成本。

排序理由介绍新模型及其基准性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Mastodon — fosstodon.org 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Mastodon — fosstodon.org TIER_1 English(EN) · [email protected] · 2026-06-23 03:09

VibeThinker：一个30亿参数模型，通过新颖的SFT+GRPO在推理能力上超越Opus 4.5 https://arxiv.org/abs/2606.16140 # HackerNews # VibeThinker # Opus4 .5 # AI #

VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO https:// arxiv.org/abs/2606.16140 # HackerNews # VibeThinker # Opus4 .5 # AI # reasoning # SFT # GRPO

链接 arxiv.org/…/2606.16140

报道来源 [1]

VibeThinker：一个30亿参数模型，通过新颖的SFT+GRPO在推理能力上超越Opus 4.5 https://arxiv.org/abs/2606.16140 # HackerNews # VibeThinker # Opus4 .5 # AI #

相关实体

相关话题