实体 Text Generation Inference

Text Generation Inference

PulseAugur coverage of Text Generation Inference — every cluster mentioning Text Generation Inference across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 10

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

6 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

TOOL · CL_134332 · Jul 9 · 16:38

AWS SageMaker HyperPod 通过新功能提升企业 AI 推理能力

Amazon SageMaker HyperPod 推出了新功能，以增强生成式 AI 工作负载的企业推理能力。这些更新包括在推理管道的各个节点改进数据捕获能力，提供更强的可观测性和可审计性。该平台现在支持直接从 Hugging Face 等社区中心进行部署，并内置了受控访问和版本固定功能。通过 NVMe 存储降低延迟以提升性能，并通过细粒度的 IAM 权限和自动 DNS 管理增强安全性。
TOOL · CL_131838 · Jul 8 · 09:49

新库将 GPU 加速的惩罚应用于 LLM logits 以增强安全性

一个名为 ReskLogits 的新开源库已被开发出来，通过在 token 采样发生之前的 logits 层面进行干预来增强 LLM 的安全性。这种方法旨在通过实时对危险 token 应用惩罚来防止有害内容的生成，从而使攻击者更难利用提示注入漏洞。该库提供了一个 GPU 加速的 Aho-Corasick 算法，用于高效的模式匹配，并支持多级过滤，允许根据禁用短语的严重程度进行可配置的惩罚。
COMMENTARY · CL_130187 · Jul 7 · 13:01

自托管 LLM 将成本转移到持续评估上

自托管开源大型语言模型将主要成本从 API 使用转移到持续的模型评估工作。量化是减少模型本地使用大小的常用技术，但可能会在推理和长上下文检索等关键任务上微妙地降低性能。此外，推理引擎（如 vLLM 或 TGI）的选择也会以不易察觉的方式改变模型行为。与维护持续评估流程的托管模型提供商不同，大多数自托管团队只测试模型一次，这可能导致性能随着时间的推移而下降而未被发现。
COMMENTARY · CL_121243 · Jul 2 · 01:53

vLLM、TGI 和 Triton：应对机器学习推理服务的挑战

当前的机器学习推理服务格局涉及多种关键技术，每种技术都解决了挑战的不同方面。vLLM 在最大化吞吐量方面表现出色，Text Generation Inference (TGI) 专为 HuggingFace 生态系统量身定制，而 Triton 提供多框架支持。主要瓶颈被确定不在模型本身，而在调度层，连续批处理现在被认为是标准要求。
TOOL · CL_114729 · Jun 28 · 15:54

新的代理提供自托管 LLM 的每个代理 GPU 成本跟踪

开发了一个新的 LLM 推理代理，以解决自托管模型时 AI 代理成本可见性的差距。与专注于 token 数量的现有工具不同，该代理跟踪 GPU 小时消耗，提供每个代理和模型的精细成本数据。这有助于在迁移到不同 LLM 之前进行更好的预算管理、模型使用策略执行和影响分析。
TOOL · CL_103619 · Jun 22 · 09:53

大语言模型（LLM）托管选项比较：Ollama、vLLM、TGI和云服务提供商

本指南比较了2026年托管大型语言模型（LLMs）的各种方法，评估了Ollama、llama.cpp、vLLM、TGI、Docker Model Runner和LocalAI等选项以及云服务提供商。它详细介绍了每种方法的成本、性能和基础设施权衡。目的是为寻求高效部署LLMs的用户提供全面的概述。
TOOL · CL_73591 · Jun 5 · 15:09

InferBench 应用简化本地 LLM 性能测试

一款名为 InferBench 的新开源桌面应用程序已发布，旨在帮助用户确定哪些大型语言模型 (LLM) 可以在其本地 GPU 上运行以及运行速度如何。该工具自动化了下载模型、配置模型以获得最佳硬件性能以及测量关键指标（如首次 token 时间、每秒 token 数和 VRAM 使用量）的过程。InferBench 计算精确的 KV 缓存需求以预测最大上下文长度，并选择最佳量化，从而摆脱了猜测和手动测试。
TOOL · CL_42594 · May 21 · 11:37

LLM 服务可观测性：vLLM 和 TGI 的分层方法

本文详细介绍了如何为 vLLM 和 TGI 等大型语言模型推理服务器实现端到端可观测性。文章指出，由于 LLM 服务特有的可变延迟、动态批处理以及 KV 缓存的关键作用等特性，标准的可观测性工具存在不足。作者提出了一种分层方法，将面向用户的 Token 渲染与底层的 GPU 芯片指标相关联，并提供了从业务成本到 GPU 硬件的每个层级需要监控的具体信号。
TOOL · CL_40951 · May 20 · 11:37

vLLM 生产指南详细介绍关键配置决策以提升性能

本文提供了一份优化 vLLM 部署的指南，重点关注影响性能和成本的三个关键配置决策。文章详细介绍了静态 KV 缓存分配如何导致 GPU 内存不足错误，并强调了选择正确的服务框架、管理 KV 缓存与模型权重的内存预算以及配置分块预填充和前缀缓存等批处理策略的重要性。该指南还概述了常见的故障模式，并为有效的 vLLM 运行提供了架构见解。
TOOL · CL_47678 · Dec 3 · 00:00

Together AI 推出 AutoJudge 以加快 LLM 推理速度

Together AI 的研究人员开发了 AutoJudge，这是一种加速大型语言模型推理的新颖方法。该技术可自动精选特定任务的数据集，从而无需手动注释即可实现有损推测解码。AutoJudge 可识别影响下游质量的关键标记，在标准推测解码的基础上实现了高达 2 倍的速度提升，同时准确性损失极小。

AWS SageMaker HyperPod 通过新功能提升企业 AI 推理能力

新库将 GPU 加速的惩罚应用于 LLM logits 以增强安全性

自托管 LLM 将成本转移到持续评估上

vLLM、TGI 和 Triton：应对机器学习推理服务的挑战

新的代理提供自托管 LLM 的每个代理 GPU 成本跟踪

大语言模型（LLM）托管选项比较：Ollama、vLLM、TGI和云服务提供商

InferBench 应用简化本地 LLM 性能测试

LLM 服务可观测性：vLLM 和 TGI 的分层方法

vLLM 生产指南详细介绍关键配置决策以提升性能

Together AI 推出 AutoJudge 以加快 LLM 推理速度