研究人员开发了一种新的卷积神经网络(CNN)模型,该模型能够从短音频片段中预测即将发生的口吃事件。这个拥有616K参数的模型在SEP-28k数据集上进行了训练,在识别如阻塞和声音重复等严重口吃事件的前体方面表现出特别的能力。值得注意的是,该模型可以部署在设备上,并在各种Apple设备上展示了高效的导出格式和低延迟。 AI
影响 实现了口吃事件的设备上预测,可能有助于实时干预系统。
排序理由 这是一篇详细介绍新模型及其评估的研究论文。
- A19 Pro
- M1 Max
- CNN
- DisfluencySpeech
- FluencyBank Teaching
- iPhone 17 Pro Max
- iPhone SE 3rd-gen
- LibriStutter
- ONNX
- SEP-28k
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →