PulseAugur
实时 18:14:40
English(EN) Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax

Luce Spark 支持在 16GB GPU 上运行 35B MoE 模型

Luce Spark 是一个新推出的开源系统,它允许大型混合专家(MoE)语言模型(特别是 33-350 亿参数的模型)在单个 16GB GPU 上运行。它通过智能地仅将当前活动的专家保留在 GPU 上,而其余专家则存储在系统 RAM 中并在需要时进行交换来实现这一点。这种方法避免了通常与卸载相关的性能损失,使得原本无法运行的大型模型能够高效运行。 AI

影响 使得在消费级硬件上运行大型 MoE 模型成为可能,从而普及了对先进 AI 能力的访问。

排序理由 该集群描述了一种在有限硬件上运行大型 MoE 模型的新颖开源方法,这是高效 AI 部署领域的一项重要研究贡献。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Luce Spark 支持在 16GB GPU 上运行 35B MoE 模型

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/sandropuppo ·

    Luce Spark: 16 GB GPU 上的 35B MoE 模型,无需卸载开销

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1u0b3cu/luce_spark_a_35b_moe_on_a_16_gb_gpu_without_the/"> <img alt="Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax" src="https://preview.redd.it/tg6kpi4vs26h1.png?width=640&amp;crop=smart&amp;a…