English(EN) Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech

音频语言模型在构音障碍语音语境下表现不佳，但微调显示出希望

作者 PulseAugur 编辑部 · [4 个来源] · 2026-05-04 04:00

研究人员开发了一个基准测试，用于检验当前的音频语言模型是否能有效利用额外的临床背景信息来改进构音障碍语音的自动语音识别。初步研究表明，这些模型并未从诊断标签或详细的临床描述中获得显著益处，某些提示甚至会降低性能。然而，使用临床背景信息进行微调显示出希望，对于唐氏综合征等特定亚组，词错误率得到了显著降低。 AI

影响凸显了当前自动语音识别模型在非典型语音方面的局限性，并为实现更具包容性的技术提供了途径。

排序理由学术论文，提出了一种新的自动语音识别模型基准和微调方法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。我们如何撰写摘要 →

报道来源 [4]

arXiv cs.CL TIER_1 English(EN) · Pehu\'en Moure, Niclas Pokel, Bilal Bounajma, Yingqiang Gao, Roman Boehringer, Longbiao Cheng, Shih-Chii Liu · 2026-05-05 04:00

When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

arXiv:2605.02782v1 Announce Type: cross Abstract: Automatic speech recognition (ASR) systems remain brittle on dysarthric and other atypical speech. Recent audio-language models raise the possibility of improving performance by conditioning on additional clinical context at infer…
arXiv cs.CL TIER_1 English(EN) · Shih-Chii Liu · 2026-05-04 16:24

When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

Automatic speech recognition (ASR) systems remain brittle on dysarthric and other atypical speech. Recent audio-language models raise the possibility of improving performance by conditioning on additional clinical context at inference time, but it is unclear whether these models …
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-04 16:24

When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

Automatic speech recognition (ASR) systems remain brittle on dysarthric and other atypical speech. Recent audio-language models raise the possibility of improving performance by conditioning on additional clinical context at inference time, but it is unclear whether these models …
arXiv cs.LG TIER_1 English(EN) · Jaesung Bae, Xiuwen Zheng, Minje Kim, Chang D. Yoo, Mark Hasegawa-Johnson · 2026-05-04 04:00

Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech

arXiv:2603.15988v2 Announce Type: replace-cross Abstract: Dysarthric speech quality assessment (DSQA) is critical for clinical diagnostics and inclusive speech technologies. However, subjective evaluation is costly and difficult to scale, and the scarcity of labeled data limits r…

报道来源 [4]

When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech

相关实体

相关话题