English(EN) Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Gladia 开源标准化库以提高 STT 评估准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-23 15:49

一个名为 gladia-normalization 的新开源库已发布，旨在解决语音转文本 (STT) 模型评估中的不一致问题。该库在计算词错误率 (WER) 之前对转录文本进行标准化，防止格式差异被错误地标记为错误。该工具提供在 YAML 中定义的、可配置的标准化流程，确保评估过程具有确定性和版本可控性。 AI

影响标准化 STT 评估，提高语音识别模型性能的准确性和可比性。

排序理由发布用于 AI 模型评估中特定任务的开源库。

在 r/MachineLearning 阅读 →

gladia-normalization

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/Karamouche · 2026-04-23 15:49

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

<div class="md"><p>Hey guys! At my company, we've been benchmarking STT engines a lot and kept running into the same issue: WER is penalizing formatting differences that have nothing to do with actual recognition quality. "It's $50" vs "it is fifty d…

报道来源 [1]

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

相关话题