实体 tokens per second

tokens per second

PulseAugur coverage of tokens per second — every cluster mentioning tokens per second across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 0

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

COMMENTARY · CL_37856 · May 19 · 00:25

LLM基准测试在长上下文推理速度方面具有误导性

当前的LLM推理基准测试具有误导性，因为它们主要衡量短上下文性能，这不能反映涉及长上下文的实际使用情况。这种差异源于Transformer推理的预填充（prefill）和解码（decode）阶段不同的计算需求，其中预填充受计算限制，而解码受内存带宽限制。提供商可能在一个阶段表现出色，而在另一个阶段遇到困难，并且KV缓存的大小依赖于上下文长度，这进一步加剧了大规模性能的复杂性。为了准确选择推理提供商，用户必须使用真实的流量模式和上下文长…
TOOL · CL_41175 · May 18 · 02:04

工具可视化LLM每秒5到800个token的生成速度

一款新的交互式工具允许用户可视化语言模型每秒5到800个token的生成速度。该工具由Mike Veerman开发，通过实时模拟输出来帮助用户理解“每秒30个token”等宣传速度。该工具对于评估不同LLM的实际性能很有用。

LLM基准测试在长上下文推理速度方面具有误导性

工具可视化LLM每秒5到800个token的生成速度