一位 Reddit r/LocalLLaMA 社区的用户正在探索在通过 Thunderbolt 3 连接的多个 eGPU 上运行大型语言模型的性能优化。他们正在尝试不同的模型拆分技术,特别是层拆分与张量拆分,以最大化预填充和解码阶段的吞吐量。该用户正在研究混合拆分的理论可能性,该拆分可以利用每种方法的优势来克服其 TB3 设置固有的带宽限制。 AI
影响 有可能提高消费级多 GPU 硬件上的 LLM 推理性能。
排序理由 用户生成的关于在消费级硬件上运行 LLM 的技术实现细节的讨论。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →