English(EN) Benchmark: ONNX Runtime vs HF Transformers vs GGUF for Parakeet TDT 0.6B on CPU-only hardware [D]

ONNX Runtime 在仅 CPU 的语音基准测试中优于 HF Transformers

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 13:01

一项在仅 CPU 硬件上对 Parakeet TDT 0.6B 模型进行 ONNX Runtime、Hugging Face Transformers 和 GGUF 的基准测试显示，ONNX Runtime 的推理速度比 Hugging Face Transformers 快 37%。这种性能提升归因于 ONNX Runtime 的算子融合和 AVX2 优化，但代价是内存使用量更高。GGUF 提供了一种更节省内存的解决方案，但推理时间加倍，因此适用于受限部署。 AI

影响 ONNX Runtime 在 CPU 上的性能优势可能实现更高效的设备端语音处理。

排序理由对 CPU 硬件上特定模型的推理运行时进行基准测试。[lever_c_demoted from research: ic=1 ai=0.7]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

ONNX Runtime 在仅 CPU 的语音基准测试中优于 HF Transformers

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/gvij · 2026-06-05 13:01

基准测试：ONNX Runtime vs HF Transformers vs GGUF 在仅 CPU 硬件上运行 Parakeet TDT 0.6B [D]

<div class="md">Sharing a small CPU inference benchmark for nvidia/parakeet-tdt-0.6b-v3 that turned up a result I didn't expect going in. Setup: 2 x86-64 vCPUs (AVX2/FMA), 7.7GB RAM, no GPU. Test audio: 16.78s Harvard sentences at 16kHz m…

报道来源 [1]

基准测试：ONNX Runtime vs HF Transformers vs GGUF 在仅 CPU 硬件上运行 Parakeet TDT 0.6B [D]

相关实体

相关话题