PulseAugur
实时 00:28:13
English(EN) Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for inference from the start by @StepFun_ai.

Fireworks AI 发布针对推理优化的 196B MoE 模型

Fireworks AI 发布了 Step 3.7 Flash,这是一个拥有 1960 亿参数的混合专家(MoE)模型,在设计时就将推理效率作为主要考虑因素。这种方法与许多研究实验室在模型初步开发后才进行推理优化的做法形成对比。 AI

影响 该模型对推理效率的关注可能导致更具成本效益的 AI 部署。

排序理由 发布了一个具有技术细节的新模型,但并非来自前沿实验室。[lever_c_demoted from research: ic=1 ai=1.0]

在 X — Fireworks (inference infra) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. X — Fireworks (inference infra) TIER_1 English(EN) · FireworksAI_HQ ·

    许多研究实验室直到事后才考虑推理效率。Step 3.7 Flash 是一个 196B MoE 模型,由 @StepFun_ai 从一开始就为推理而构建。

    Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for inference from the start by @StepFun_ai. Multi-Matrix Factorization Attention (MFA) → KV-cache at ~22% of DeepSeek. Attention-FFN Disaggregation (AFD) →