English(EN) Your AI speed benchmark is measuring the one workload you don't run

LLM基准测试在长上下文推理速度方面具有误导性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 00:25

当前的LLM推理基准测试具有误导性，因为它们主要衡量短上下文性能，这不能反映涉及长上下文的实际使用情况。这种差异源于Transformer推理的预填充（prefill）和解码（decode）阶段不同的计算需求，其中预填充受计算限制，而解码受内存带宽限制。提供商可能在一个阶段表现出色，而在另一个阶段遇到困难，并且KV缓存的大小依赖于上下文长度，这进一步加剧了大规模性能的复杂性。为了准确选择推理提供商，用户必须使用真实的流量模式和上下文长度进行自己的负载测试，而不是依赖已发布的排行榜。 AI

影响强调了当前的LLM推理基准测试如何误导实际应用，并敦促运营商进行自定义测试以准确选择提供商。

排序理由文章批评了现有的LLM基准测试，并提供了如何进行更好评估的建议，而不是发布新产品、模型或研究成果。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Thousand Miles AI · 2026-05-19 00:25

您的人工智能速度基准测试正在衡量您不运行的工作负载

<p>Every published "tokens per second" number you've used to pick an inference provider is measured on a workload that doesn't exist in your production system. The leaderboard is wrong, and not in a small way — the rankings invert as context length grows, and the model topping th…

报道来源 [1]

您的人工智能速度基准测试正在衡量您不运行的工作负载

相关实体

相关话题