一项在仅 CPU 硬件上对 Parakeet TDT 0.6B 模型进行 ONNX Runtime、Hugging Face Transformers 和 GGUF 的基准测试显示,ONNX Runtime 的推理速度比 Hugging Face Transformers 快 37%。这种性能提升归因于 ONNX Runtime 的算子融合和 AVX2 优化,但代价是内存使用量更高。GGUF 提供了一种更节省内存的解决方案,但推理时间加倍,因此适用于受限部署。 AI
影响 ONNX Runtime 在 CPU 上的性能优势可能实现更高效的设备端语音处理。
排序理由 对 CPU 硬件上特定模型的推理运行时进行基准测试。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →