English(EN) Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device

AI模型从音频预测口吃事件，并部署在设备上

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-30 00:30

研究人员开发了一种新的卷积神经网络（CNN）模型，该模型能够从短音频片段中预测即将发生的口吃事件。这个拥有616K参数的模型在SEP-28k数据集上进行了训练，在识别如阻塞和声音重复等严重口吃事件的前体方面表现出特别的能力。值得注意的是，该模型可以部署在设备上，并在各种Apple设备上展示了高效的导出格式和低延迟。 AI

影响实现了口吃事件的设备上预测，可能有助于实时干预系统。

排序理由这是一篇详细介绍新模型及其评估的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Nazar Kozak · 2026-05-01 04:00

从三秒音频预测即将发生的口吃事件：分层评估揭示了选择性严重程度的前兆，并且模型完全在设备上部署

arXiv:2604.27279v1 Announce Type: cross Abstract: Audio-based stuttering systems to date have been trained for detection -- what disfluency is present now -- leaving prediction, the capability needed for closed-loop intervention, unstudied at deployable scale. We train a 616K-par…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-04-30 00:30

从三秒音频预测未来口吃事件：分层评估揭示了选择性严重程度前体，模型完全部署在设备上

Audio-based stuttering systems to date have been trained for detection -- what disfluency is present now -- leaving prediction, the capability needed for closed-loop intervention, unstudied at deployable scale. We train a 616K-parameter CNN on SEP-28k (Apple, 20,131 three-second …

报道来源 [2]

从三秒音频预测即将发生的口吃事件：分层评估揭示了选择性严重程度的前兆，并且模型完全在设备上部署

从三秒音频预测未来口吃事件：分层评估揭示了选择性严重程度前体，模型完全部署在设备上

相关实体

相关话题