实体
Text Generation Inference
Text Generation Inference
PulseAugur coverage of Text Generation Inference — every cluster mentioning Text Generation Inference across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
LLM 服务可观测性:vLLM 和 TGI 的分层方法
本文详细介绍了如何为 vLLM 和 TGI 等大型语言模型推理服务器实现端到端可观测性。文章指出,由于 LLM 服务特有的可变延迟、动态批处理以及 KV 缓存的关键作用等特性,标准的可观测性工具存在不足。作者提出了一种分层方法,将面向用户的 Token 渲染与底层的 GPU 芯片指标相关联,并提供了从业务成本到 GPU 硬件的每个层级需要监控的具体信号。
-
vLLM production guide details key config decisions for performance
This article provides a guide for optimizing vLLM deployments, focusing on three critical configuration decisions that impact performance and cost. It details how static KV cache allocation can lead to GPU out-of-memory…
-
Together AI 推出 AutoJudge 以加快 LLM 推理速度
Together AI 的研究人员开发了 AutoJudge,这是一种加速大型语言模型推理的新颖方法。该技术可自动精选特定任务的数据集,从而无需手动注释即可实现有损推测解码。AutoJudge 可识别影响下游质量的关键标记,在标准推测解码的基础上实现了高达 2 倍的速度提升,同时准确性损失极小。