English(EN) Would there be a use case for running a 405B on a single 8xA100 node with up to 30 fine tuned specialists loaded hot at sub 200ms switching?

405B Llama模型在单个8xA100节点上运行，支持30+专家模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 02:01

一位用户分享了他们在单个8xA100节点上运行405B参数Llama模型的经验，实现了低于200毫秒的适配器切换时间。他们成功加载了30多个微调的专家适配器，展示了在要求苛刻的任务中令人印象深刻的吞吐量和低延迟，特别是在健康和法律等敏感领域。选择此设置是为了克服小型模型在推理深度方面的局限性，并避免与H100硬件相关的高成本。 AI

影响展示了在专用硬件上高效部署大型模型，有可能降低复杂AI应用的成本。

排序理由用户分享的关于在特定硬件上运行大型模型的技术实现细节和性能指标。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/Esph1001 · 2026-06-29 02:01

在单个8xA100节点上运行405B模型，加载多达30个微调的专家模型，并在200毫秒内实现快速切换，是否存在用例？

<div class="md"><p>I know people consider llama 405b and others to be old now, lol, but I'm wondering if there would be a use case for it.</p> <p>I had a use case for a project I was building and I wanted to share what I got and get some feedback which would be muc…

报道来源 [1]

在单个8xA100节点上运行405B模型，加载多达30个微调的专家模型，并在200毫秒内实现快速切换，是否存在用例？

相关实体

相关话题