English(EN) Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax

Luce Spark 支持在 16GB GPU 上运行 35B MoE 模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 15:24

Luce Spark 是一个新推出的开源系统，它允许大型混合专家（MoE）语言模型（特别是 33-350 亿参数的模型）在单个 16GB GPU 上运行。它通过智能地仅将当前活动的专家保留在 GPU 上，而其余专家则存储在系统 RAM 中并在需要时进行交换来实现这一点。这种方法避免了通常与卸载相关的性能损失，使得原本无法运行的大型模型能够高效运行。 AI

影响使得在消费级硬件上运行大型 MoE 模型成为可能，从而普及了对先进 AI 能力的访问。

排序理由该集群描述了一种在有限硬件上运行大型 MoE 模型的新颖开源方法，这是高效 AI 部署领域的一项重要研究贡献。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/sandropuppo · 2026-06-08 15:24

Luce Spark: 16 GB GPU 上的 35B MoE 模型，无需卸载开销

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1u0b3cu/luce_spark_a_35b_moe_on_a_16_gb_gpu_without_the/"> <img alt="Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax" src="https://preview.redd.it/tg6kpi4vs26h1.png?width=640&crop=smart&a…

报道来源 [1]

Luce Spark: 16 GB GPU 上的 35B MoE 模型，无需卸载开销

相关实体

相关话题