实体
Whisper Large v3 Turbo
Whisper Large v3 Turbo
PulseAugur coverage of Whisper Large v3 Turbo — every cluster mentioning Whisper Large v3 Turbo across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Omi Health 发布开放权重医疗 ASR 模型
Omi Health 创始人发布了 Omi Med STT v1,这是 NVIDIA 的 Parakeet TDT 0.6B 模型的一个微调版本,用于医疗自动语音识别 (ASR)。该开放权重模型旨在本地设备上运行,确保患者音频隐私。与其它模型相比,Omi Med STT v1 在医疗词错误率 (M-WER) 方面表现出竞争力,同时比大型模型更小、更快。
-
语音 AI 延迟基准测试:端到端模型优于级联模型
最近对五个语音 AI 栈进行的基准测试显示,只有两个能够持续在关键的 300 毫秒延迟阈值内响应。作者发现,将语音识别 (STT)、大语言模型 (LLM) 和语音合成 (TTS) 合并为单一流程的端到端语音模型,其性能显著优于级联模型。这些级联系统由于串行处理语音识别、LLM 首个 token 的生成时间、语音合成以及网络往返时间,难以满足延迟要求。速度最快的两个栈是 OpenAI 的 Realtime API 配合 GPT-4o,以…