一款名为 hipEngine 的新开源推理引擎已为 AMD 的 RDNA3 GPU 开发,能够实现 Qwen 3.6 大型语言模型更快的原生推理。该引擎使用 Python 编写,核心为 HIP/C++,利用 AMD 的原生库在性能上与 llama.cpp 竞争。基准测试显示,在各种上下文长度下,尤其是在 128K 上下文时,hipEngine 的提示处理速度优于 llama.cpp,并且峰值内存使用量更低。 AI
影响 在 AMD GPU 上实现更快的本地 LLM 推理,可能拓宽 AI 模型部署的硬件可及性。
排序理由 用于优化特定硬件上 LLM 推理的新开源软件发布。 [lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →