English(EN) Why Self-Hosted Claude Code Was 15 Slower Than It Should Be

通过缓存和头部剥离实现自托管 Claude Code 加速

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-07 01:55

一位开发者详细介绍了他们如何通过解决两个关键性能瓶颈来显著加快自托管 Claude Code 的设置。主要问题是 Claude Code 注入的计费头部轮换，这导致 vLLM-MLX 后端出现缓存未命中。此外，vLLM-MLX 的 SimpleEngine 缺少系统前缀的持久 KV 状态，需要自定义补丁进行缓存。实施这些更改后，周转时间从 100 多秒减少到 7-8 秒，提高了 13-15 倍。 AI

影响此类优化对于使自托管 LLM 部署对开发人员来说切实可行且具有成本效益至关重要。

排序理由关于优化特定工具性能的技术深度分析。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Vinay · 2026-06-07 01:55

为什么自托管的 Claude 代码比应有的速度慢 15%

<blockquote> Update (2026-05-14). The SimpleEngine prefix-cache patch described in Finding #2 is now upstream as <a href="https://github.com/waybarrios/vllm-mlx/pull/523" rel="noopener noreferrer">vllm-mlx PR #523</a>, merged. If you're on a …

报道来源 [1]

为什么自托管的 Claude 代码比应有的速度慢 15%

相关实体

相关话题