English(EN) Tensor split performance on low-bandwidth (TB3) eGPUs, and a question

用户探索用于 eGPU LLM 性能的混合模型拆分

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-28 21:06

一位 Reddit r/LocalLLaMA 社区的用户正在探索在通过 Thunderbolt 3 连接的多个 eGPU 上运行大型语言模型的性能优化。他们正在尝试不同的模型拆分技术，特别是层拆分与张量拆分，以最大化预填充和解码阶段的吞吐量。该用户正在研究混合拆分的理论可能性，该拆分可以利用每种方法的优势来克服其 TB3 设置固有的带宽限制。 AI

影响有可能提高消费级多 GPU 硬件上的 LLM 推理性能。

排序理由用户生成的关于在消费级硬件上运行 LLM 的技术实现细节的讨论。

在 r/LocalLLaMA 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/tired514 · 2026-06-28 21:06

低带宽 (TB3) eGPU 上的 Tensor 分割性能，以及一个问题

<div class="md"><p>Hey everyone!</p> <p>I've got a pair of Morefine G1 4090M 16gb eGPUs connected at 40Gbps via TB3 (daisy-chained). I normally run them in layer split mode as it doesn't seem to need much bandwidth; I'm seeing around 1300t/s PP and 26t/s TG (35-40 …

报道来源 [1]

低带宽 (TB3) eGPU 上的 Tensor 分割性能，以及一个问题

相关实体

相关话题