实体 TensorRT-LLM

TensorRT-LLM

PulseAugur coverage of TensorRT-LLM — every cluster mentioning TensorRT-LLM across labs, papers, and developer communities, ranked by signal.

总计 · 30天

10

90 天内 10

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

research 1
tool 8
commentary 1

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

TOOL · CL_130775 · Jul 7 · 19:57

Together AI 详解使用 NVIDIA Blackwell 进行延迟优化

Together AI 详细介绍了其优化推理延迟的方法，重点介绍了 NVIDIA 技术与其自身平台的集成。他们的系统 Together ATLAS 利用 NVIDIA Blackwell、CUDA、TensorRT-LLM 和 Dynamo 以及自定义内核，为用户实现低于 100 毫秒的响应时间。这种优化对于实现更快的推理和长上下文代码生成至关重要。
TOOL · CL_127239 · Jul 6 · 09:04

NVIDIA TensorRT-LLM：吞吐量最快，但需注意部署成本

NVIDIA 的 TensorRT-LLM 框架提供了令人印象深刻的吞吐量速度，但仅凭头条性能指标选择它可能会导致隐藏成本。文章指出，虽然 TensorRT-LLM 在吞吐量方面是最快的，但它可能并非适用于所有工作负载的最佳选择，如果选择不当，可能会在部署上花费用户大量时间。
RESEARCH · CL_127431 · Jul 6 · 00:00

新的投机解码方法将大语言模型推理速度提升高达85% · 跟踪4个来源

研究人员开发了DSpark，一个旨在加速大语言模型（LLM）推理的新型投机解码框架。DSpark结合了用于改进草稿质量的半自回归架构和用于优化系统效率的置信度调度验证。在DeepSeek-V4服务系统中实现时，DSpark与MTP-1基线相比，每用户生成速度提高了60-85%，显著提高了吞吐量，并实现了以前无法达到的性能级别。另一个框架AdaptiveSD通过提供运行时自适应和多策略编排，解决了CPU受限的大语言模型推理问题，确保在各…
TOOL · CL_118603 · Jun 30 · 15:00

NVIDIA的软件栈在Blackwell平台上大幅降低AI推理每token成本

NVIDIA正在强调其为Blackwell平台优化的集成软件栈如何显著降低AI推理的每token成本。通过协调生产运营、应用加速和基础设施访问，NVIDIA的软件栈实现了复合性能提升，使DeepSeek V4等模型的每token成本降低高达5倍。Baseten、Cognition、Deep Infra和Together AI等公司正在利用包括TensorRT-LLM等库和NVIDIA Dynamo等框架在内的该软件栈，以提高效率和扩展…
TOOL · CL_117876 · Jun 30 · 04:00

新技术通过预解码会话加速大语言模型推理

研究人员引入了一种名为推测性预定位的新技术，以提高大型语言模型无状态推理服务器的效率。该方法将解码会话向前推进到下一个决策点，有效地将预填充和入口解码任务移出关键路径。该方法旨在通过允许下一个请求从预付费条目恢复，或者在某些置信度阈值下，通过快速词汇扫描从缓存分布中得到答案，从而减少延迟，与传统方法相比显著缩短了响应时间。
COMMENTARY · CL_79311 · Jun 9 · 02:11

每瓦特令牌数将决定 2026 年 GPU 和散热方案

2026 年 AI 计算的主要瓶颈将从原始处理能力转向效率，特别是每瓦特令牌数。这是因为推理（目前占 AI 计算支出的绝大部分）本质上是一个功耗受限的问题，尤其是在数据中心功耗分配固定的情况下。因此，能够最大化每兆瓦特生成令牌数的最高效 GPU 将比那些拥有最高 FLOPS 的 GPU 更受青睐。服务软件和数值精度（如 FP8 和 FP4）的进步可以在不要求新硬件的情况下显著降低每令牌成本，提供比仅购买更多 GPU 更直接、更具成本效…
TOOL · CL_78725 · Jun 8 · 19:31

LLM推理手册解释Token生成和优化

本手册深入探讨了大型语言模型（LLM）推理的工程学科，解释了模型如何生成Token以及生产系统中使用的先进优化技术。它涵盖了预填充（prefill）和解码（decode）、KV缓存（KV cache）以及关键性能指标等基本概念，然后探讨了量化（quantization）、PagedAttention和推测性解码（speculative decoding）等优化策略。该指南还详细介绍了vLLM、TensorRT-LLM和SGLang等现…
TOOL · CL_68468 · Jun 3 · 04:00

KForge使用LLM代理自动生成AI加速器内核

研究人员开发了KForge，一个利用LLM驱动的代理自动生成AI加速器优化内核的框架。该系统通过采用迭代细化循环来应对为不同硬件创建高效代码的挑战。一个代理根据编译反馈生成和细化内核，而另一个代理分析性能数据以指导优化。KForge已在NVIDIA和Intel硬件上展示了优于现有解决方案的性能。
TOOL · CL_40951 · May 20 · 11:37

vLLM 生产指南详细介绍关键配置决策以提升性能

本文提供了一份优化 vLLM 部署的指南，重点关注影响性能和成本的三个关键配置决策。文章详细介绍了静态 KV 缓存分配如何导致 GPU 内存不足错误，并强调了选择正确的服务框架、管理 KV 缓存与模型权重的内存预算以及配置分块预填充和前缀缓存等批处理策略的重要性。该指南还概述了常见的故障模式，并为有效的 vLLM 运行提供了架构见解。
TOOL · CL_47678 · Dec 3 · 00:00

Together AI 推出 AutoJudge 以加快 LLM 推理速度

Together AI 的研究人员开发了 AutoJudge，这是一种加速大型语言模型推理的新颖方法。该技术可自动精选特定任务的数据集，从而无需手动注释即可实现有损推测解码。AutoJudge 可识别影响下游质量的关键标记，在标准推测解码的基础上实现了高达 2 倍的速度提升，同时准确性损失极小。