PulseAugur
实时 02:22:59
English(EN) The Request Is the Wrong Unit of Scale for LLMs on Kubernetes

Kubernetes 上的 LLM 扩展需要基于 token 的指标,而不是请求计数

传统的依赖请求计数的 Web 应用程序扩展模型不足以支持大型语言模型 (LLM)。LLM 工作负载的复杂性因输入和输出 token 的数量而异,而不仅仅是 HTTP 请求的数量。这一区别至关重要,因为输入 token 会影响首次 token 的时间,而输出 token 会影响整体处理时间和系统容量,即使请求指标看起来稳定,也可能导致性能问题。 AI

影响 强调了在请求计数之外需要新的扩展指标来实现高效的 LLM 部署。

排序理由 文章讨论了技术挑战并提出了一种新的 LLM 服务指标,属于基础设施和产品开发方面的评论。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Kubernetes 上的 LLM 扩展需要基于 token 的指标,而不是请求计数

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Pawan Kumar ·

    The Request Is the Wrong Unit of Scale for LLMs on Kubernetes

    <blockquote> <p><strong>Series links</strong></p> <ul> <li><a href="https://www.dheeth.blog/llm-serving-is-not-normal-web-serving/" rel="noopener noreferrer">Part 1: Everything You Know About Scaling Web Apps Breaks When You Serve an LLM</a></li> </ul> </blockquote> <p>Your dashb…