PulseAugur
实时 05:57:40
English(EN) Serving 40 LoRA adapters on one base model: the throughput we got

Nexus Labs 通过在单个 Llama 3.1 模型上服务 40 个 LoRA 适配器来降低成本

Nexus Labs 开发了一种经济高效的方法,可以在单个基础模型上服务多个 LoRA 适配器,从而显著降低基础设施成本。通过利用 vLLM 的多 LoRA 服务功能,他们将 40 个客户特定的适配器整合到两个 A100 GPU 上,将月成本从估计的 24,000 美元削减到一小部分。虽然这种方法会带来少量的延迟成本,并且需要仔细评估以确保输出一致性,但对于满足不同客户需求的企业部署来说,它被证明非常高效。 AI

影响 为部署定制化 LLM 的企业带来了显著的成本降低,可能加速微调模型的采用。

排序理由 这描述了服务 AI 模型的技术实现和优化,而不是新的模型发布或基础研究。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Marcus Chen ·

    一个基础模型服务 40 个 LoRA 适配器:我们获得的吞吐量

    <p><strong>TL;DR: We fine-tune one LoRA adapter per enterprise customer on top of a single Llama 3.1 8B base. Running them as 40 separate deployments would have cost roughly $24k/month in mostly-idle GPU. Multi-LoRA serving in vLLM put all 40 on two A100s. Numbers and the parts t…