一位开发者创建了一个名为 aether 的基于 Rust 的 LLM 推理引擎,旨在通过自定义 WGSL GPU 内核实现高效的模型执行。该项目主要用于学习,支持 Llama 和 Mistral 等 GGUF 模型,并利用 WGPU 为各种后端实现 GPU 加速。它具有自定义的融合计算着色器,用于量化矩阵乘法,并包含一个与 OpenAI 兼容的 API 服务器,尽管 GPU 路径仍处于实验阶段。 AI
影响 为在本地运行 LLM 提供了一个新的、高效的推理引擎,有可能提高开发者的性能和可访问性。
排序理由 文章描述了一个用于 LLM 推理工具的个人项目,而不是重大的行业发布或研究突破。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →