English(EN) What's the best open speech to text today?

Reddit 上讨论的开源语音转文本模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 19:50

r/LocalLLaMA 子版块的用户正在讨论目前最好的开源语音转文本 (STT) 模型，重点关注实时性能和说话人分离能力。虽然 Whisper 模型得到了认可，但社区正在寻找 Whisper Flow 等工具的替代品。其他提到的 STT 解决方案包括 Vosk、Kaldi、Mozilla DeepSpeech、Coqui STT 和 NVIDIA 的产品，用户在询问可能提供改进的实时功能的新模型。 AI

影响用户正在为实时应用寻求改进的开源语音转文本解决方案。

排序理由 Reddit 上关于现有和潜在开源语音转文本模型的用户讨论。

在 r/LocalLLaMA 阅读 →

其他

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/zxyzyxz · 2026-06-18 19:50

如今最好的开源语音转文本是什么？

<div class="md"><p>I'm looking for a setup that can do real time diarization as well, basically looking for an alternative to Wispr Flow or other such tools. I know of MacParakeet which uses Parakeet and of course Whisper models, but I'm wondering what else exists …

报道来源 [1]

如今最好的开源语音转文本是什么？

相关实体

相关话题