实体 Whisper-medium

Whisper-medium

PulseAugur coverage of Whisper-medium — every cluster mentioning Whisper-medium across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_99707 · Jun 18 · 05:55

零样本语音克隆增强构音障碍ASR模型训练

研究人员探索了零样本语音克隆作为一种方法，用于增强在构音障碍语音上训练的自动语音识别（ASR）系统的数据集。通过使用Higgs Audio V2克隆TORGO数据集中的说话人，他们能够微调Whisper-medium模型。该方法实现了26.00%的词错误率（WER），与在真实或混合数据上训练的模型相比具有竞争力，并且在对中度至重度构音障碍的说话人进行真实数据训练方面表现出色。研究结果表明，零样本克隆为构音障碍ASR中的数据稀缺问题提供…
TOOL · CL_58672 · May 29 · 04:00

ASR模型在荷兰儿童语音上的评估，Whisper-medium表现最佳

一项新近发表在arXiv上的研究评估了包括Whisper、Parakeet和Wav2Vec2在内的九个最先进的自动语音识别（ASR）模型在荷兰儿童语音数据集上的表现。微调后的Whisper-medium模型展现了最佳的整体性能，在JASMIN数据集上的词错误率（WER）为5.54%，在更具挑战性的DART数据集上为70.37%。研究人员还开发了一种自动识别发音准确且置信度高的语句的方法，减少了手动验证的需求，并实现了数据中很大一部分的自动转录。