最近的一项分析认为,常见的LLM速度基准测试具有误导性,因为它们未能考虑到诸如负载大小、输出格式和解码约束等关键因素。这些基准测试通常只提供一个速度指标,并不能反映实际生产工作负载,因为实际工作负载在token数量和格式要求方面可能存在显著差异。作者强调,不同的模型架构针对不同的用例进行了优化,例如短输出延迟与长输出吞吐量,因此一刀切的基准测试对于为特定应用程序选择最佳模型是不准确的。 AI
影响 强调了LLM基准测试中的关键缺陷,敦促运营商进行定制测试以准确选择模型。
排序理由 这篇文章是一篇评论文章,分析了当前LLM基准测试方法的缺陷。
- benchmarks
- decoding constraints
- Grouped-query attention
- LLM
- model speed
- MoE routing
- payload size
- speculative decoding
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →