一款名为 VibeThinker 的新型 30 亿参数模型在推理能力方面表现优于 Anthropic 的 Opus 4.5。该模型通过监督微调 (SFT) 和一种称为 GRPO 的技术的创新组合实现了这一性能。研究结果已发布在 arXiv 上。 AI
影响 这项研究可能预示着高度强大的小型模型的发展趋势,有望降低高级推理任务的计算成本。
排序理由 介绍新模型及其基准性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Mastodon — fosstodon.org 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →