vLLM 项目已合并一个拉取请求,该请求引入了原生的 HIP W4A16 内核,显著提升了在支持 ROCm 硬件上的性能。此次更新显示出显著的速度提升,一种配置达到了 445.7 tk/s,使得 ROCm 设备在本地 LLM 操作中更加有用。该拉取请求可在 GitHub 上进行审查和集成。 AI
影响 增强了在特定硬件上的本地 LLM 推理性能,从而能够更有效地利用支持 ROCm 的系统。
排序理由 这是对一个开源项目的底层架构改进,并非新的模型发布或重大公司公告。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →