研究人员开发了cuTile Rust,这是一个利用Rust的所有权和借用检查来验证内存安全和数据竞争自由的编程模型,从而实现安全的GPU推理。该方法已集成到Grout中,这是一个使用cuTile Rust和Hugging Face构建的推理引擎,在Qwen3模型的性能上可与vLLM和SGLang相媲美。安全特性在性能上几乎没有成本,安全GEMM操作与手工编写的低级版本相比差异极小。 AI
影响 能够更安全、更可靠地开发GPU加速的AI推理引擎。
排序理由 该条目描述了一个用于GPU推理的新编程模型和研究论文,而不是商业产品发布或前沿模型。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →