实体 llmperf

llmperf

PulseAugur coverage of llmperf — every cluster mentioning llmperf across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

COMMENTARY · CL_37856 · May 19 · 00:25

LLM基准测试在长上下文推理速度方面具有误导性

当前的LLM推理基准测试具有误导性，因为它们主要衡量短上下文性能，这不能反映涉及长上下文的实际使用情况。这种差异源于Transformer推理的预填充（prefill）和解码（decode）阶段不同的计算需求，其中预填充受计算限制，而解码受内存带宽限制。提供商可能在一个阶段表现出色，而在另一个阶段遇到困难，并且KV缓存的大小依赖于上下文长度，这进一步加剧了大规模性能的复杂性。为了准确选择推理提供商，用户必须使用真实的流量模式和上下文长…
TOOL · CL_19446 · May 6 · 13:58

AMD EPYC CPU 在 LLM 和 TTS 推理工作负载上表现出竞争力

Leaseweb 近期的一项分析对 AMD EPYC 9334 CPU 在大型语言模型 (LLM) 和文本转语音 (TTS) 推理工作负载上的性能进行了基准测试。研究表明，虽然 GPU 提供更高的吞吐量，但 CPU 可以是推理的经济高效且可预测的选择，尤其是在考虑延迟和每查询成本等因素时。基准测试突显了量化的影响，Q4 模型在 CPU 上的吞吐量明显优于 FP16，并且还与参考 Nvidia L4 GPU 比较了首次令牌时间 (TTF…