English(EN) I ported NVIDIA Parakeet (speech-to-text) to ggml: same output as NeMo, faster, GGUF-quantized, no Python

NVIDIA Parakeet 语音转文本已移植到 ggml，以实现更快的 CPU/GPU 使用

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-31 20:35

一位开发者已成功将 NVIDIA 的 Parakeet 语音转文本模型移植到 ggml 框架，使其能够在没有 Python 或 PyTorch 的情况下高效地在 CPU 和 GPU 上运行。此移植实现了与 NVIDIA 的 NeMo 模型逐字节相同的输出，在 GPU 上速度提升高达 5 倍，在 CPU 上速度提升 1.86 倍，同时还减少了内存使用。量化的 GGUF 版本已可用，该项目包含一个 C-API 以实现广泛集成，甚至通过 LocalAI 为本地兼容 OpenAI 的转录端点提供支持。 AI

影响实现了更广泛、更高效的本地部署先进语音转文本功能。

排序理由将现有模型移植到新框架以提高性能和可访问性。

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

NVIDIA Parakeet 语音转文本已移植到 ggml，以实现更快的 CPU/GPU 使用

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/mudler_it · 2026-05-31 20:35

我将 NVIDIA Parakeet (语音转文本) 移植到了 ggml：输出与 NeMo 相同，速度更快，支持 GGUF 量化，无需 Python

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tt6oja/i_ported_nvidia_parakeet_speechtotext_to_ggml/"> <img alt="I ported NVIDIA Parakeet (speech-to-text) to ggml: same output as NeMo, faster, GGUF-quantized, no Python" src="https://external-preview.redd.…

报道来源 [1]

我将 NVIDIA Parakeet (语音转文本) 移植到了 ggml：输出与 NeMo 相同，速度更快，支持 GGUF 量化，无需 Python

相关实体

相关话题