PulseAugur
实时 03:46:22
English(EN) Tensor split performance on low-bandwidth (TB3) eGPUs, and a question

用户探索用于 eGPU LLM 性能的混合模型拆分

一位 Reddit r/LocalLLaMA 社区的用户正在探索在通过 Thunderbolt 3 连接的多个 eGPU 上运行大型语言模型的性能优化。他们正在尝试不同的模型拆分技术,特别是层拆分与张量拆分,以最大化预填充和解码阶段的吞吐量。该用户正在研究混合拆分的理论可能性,该拆分可以利用每种方法的优势来克服其 TB3 设置固有的带宽限制。 AI

影响 有可能提高消费级多 GPU 硬件上的 LLM 推理性能。

排序理由 用户生成的关于在消费级硬件上运行 LLM 的技术实现细节的讨论。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

用户探索用于 eGPU LLM 性能的混合模型拆分

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/tired514 ·

    低带宽 (TB3) eGPU 上的 Tensor 分割性能,以及一个问题

    <!-- SC_OFF --><div class="md"><p>Hey everyone!</p> <p>I've got a pair of Morefine G1 4090M 16gb eGPUs connected at 40Gbps via TB3 (daisy-chained). I normally run them in layer split mode as it doesn't seem to need much bandwidth; I'm seeing around 1300t/s PP and 26t/s TG (35-40 …