word error rate · PulseAugur

AssemblyAI 详解超越词错误率 (WER) 的高级语音识别评估方法

AssemblyAI 发布了一份指南，详细介绍了评估语音转文本模型的先进方法，超越了传统的词错误率 (WER)。文章强调了 WER 的局限性，例如它无法考虑语义含义或真实转录中的错误，并介绍了语义 WER 和漏检实体率等指标。该公司以其最新的 Universal-3.5 Pro 模型为例，指出其在众多数据集上的平均英语 WER 为 5.6%。

TOOL · CL_154450 · Jul 21 · 04:00

Whisper模型微调以实现鲁棒的阿萨姆语语音识别

研究人员开发了一个微调版本的Whisper模型，以改进阿萨姆语的自动语音识别（ASR）。该微调模型在Mozilla Common Voice 24.0-Assamese语料库上进行训练，并使用Tesla 4 GPU针对资源受限环境进行了优化，其性能显著优于零样本基线。新系统在词错误率（WER）、字符错误率（CER）、匹配错误率（MER）和词信息丢失（WIL）方面实现了大幅降低，同时在语义评估的BLEU和METEOR分数方面也有显著提高。

TOOL · CL_144437 · Jul 15 · 12:31

AssemblyAI 详解生产级语音代理的最佳实践

AssemblyAI 发布了一系列博文，详细介绍了构建生产级语音代理的最佳实践。文章强调了强大的遥测和诊断管道的重要性，以便在用户发现问题之前捕获回归，并提倡使用现有日志和 AssemblyAI 的工具来实现自助服务。关键技术讨论涵盖了通过同步 HTTP 请求优化语音到文本转录的延迟，特别是当开发人员自行管理轮次检测时，并强调“首次响应时间”是感知代理响应能力的关键指标。

TOOL · CL_149538 · Jul 13 · 11:40

新的 RLHF 框架改进了越南语历史手稿翻译

研究人员开发了一种新的多模态人类反馈强化学习 (RLHF) 框架，用于将历史汉喃手稿翻译成现代越南语。该方法利用手稿图像的视觉信息和对齐的汉喃文本来提高翻译质量，解决了页面退化和并行数据有限等挑战。该框架集成了多个语言模型和视觉编码器，实验表明，在 BLEU-4 和 BERTScore 等各项指标上，直接偏好优化 (DPO) 的表现优于近端策略优化 (PPO) 和卡方优化 (KTO)，证明了偏好优化在低资源历史翻译中的有效性。

RESEARCH · CL_135148 · Jul 9 · 12:34

新的 GRPO 方法提升合成语音 ASR 性能

研究人员开发了一种名为 Group Relative Policy Optimization (GRPO) 的新方法，以改进自动语音识别 (ASR) 模型，特别是在使用合成语音进行训练时。这种强化学习方法在降低词错误率 (WER) 方面显著优于传统的监督微调 (SFT)。GRPO 相较于 SFT 实现了 40% 的相对 WER 降低，而 SFT-然后-GRPO 的组合方法进一步将性能提高了 45%。这些提升归因于 GRPO 增强停止校…

RESEARCH · CL_135192 · Jul 9 · 08:07

Qwen-ASR-1.7B适配多语种双人语音识别 · 跟踪2个来源

研究人员为MLC-SLM 2026挑战赛开发了一个系统，该系统将Qwen3-ASR-1.7B模型适配于多语种、双人对话语音。该系统将说话人日志前端与适配后的ASR模型集成，处理语音活动、说话人嵌入和音频分割。适配技术包括监督微调、使用合成语音的LoRA微调以及GRPO强化学习，这些技术共同将开发集上的词错误率降低了6.83个百分点，并在评估集上达到了17.97 tcpMER。

RESEARCH · CL_115291 · Jun 26 · 03:54

新流程增强ASR鲁棒性，词错误率降低55%

研究人员开发了一种新颖的双门诊断流程，以增强自动语音识别（ASR）系统在对抗性和良性扰动下的鲁棒性。该流程包含一个双面原子审计和一个基于排名的竞赛，旨在认证令牌存在和对抗性排除，从而提高声学安全性。在四种架构上的评估显示，词错误率（WER）相对降低高达55%，并且置信度得分与WER之间的相关性降低。

TOOL · CL_107111 · Jun 23 · 20:50

AssemblyAI 提出漏诊实体率 (MER) 来衡量医疗转录准确性

AssemblyAI 推出了一个新的指标，称为漏诊实体率 (MER)，以更好地评估医疗转录服务的准确性。传统的词错误率 (WER) 指标同等对待所有单词，未能区分填充词等小错误与药物名称或诊断不正确等关键错误。MER 专门关注临床重要实体（如药物名称、诊断和手术）的准确转录，这对于患者护理和下游系统至关重要。基准测试显示，一些具有看似良好 WER 分数的提供商的 MER 却显著更高，这凸显了 WER 在医疗应用中的不足。

RESEARCH · CL_106008 · Jun 19 · 16:43

新的ASR技术解决语音错误并提高判断可靠性

研究人员正在开发先进的方法来改进自动语音识别（ASR）系统，特别是在低资源语言方面以及解决特定类型的错误。一种名为Error-Aware TF-IDF的方法使用一种新颖的算法，根据历史语音错误识别来优先处理更正文档，从而显著降低词错误率。另一种名为G-SPIN的方法将语音图模型与大型语言模型相结合，通过将搜索空间限制在合理的语音替代方案内来纠正语义关键错误。此外，一项研究质疑用于评估LLM越狱尝试的自动判断的可靠性，揭示了其准确性和鲁…

RESEARCH · CL_97626 · Jun 17 · 14:46

新数据集和CRNN模型推动乌尔都语手写文本识别

研究人员推出了Urdu Katib Handwritten Dataset (UKHD)，这是第一个历史乌尔都语手写文本行的离线数据集。该数据集旨在解决乌尔都语手写文本识别 (UHTR) 资源稀缺的问题。研究还评估了各种基于CRNN的模型，确定CNN-BGRU-CTC在乌尔都语Katib手写识别方面最有效，实现了较低的字符和单词错误率。

RESEARCH · CL_93405 · Jun 15 · 17:06

神经音频编解码器在低至1.6赫兹时仍能实现平滑降级

研究人员探究了神经音频编解码器在低帧率下的性能衰减机制，低帧率有利于自回归语音合成。他们的研究发现，之前观察到的6.25赫兹时的质量断崖并非由音素冲突或码本饱和引起，而是由于训练配置不当。通过纠正此配置，词错误率平滑降级至1.6赫兹，表明低帧率编解码器的效率提升比之前认为的更容易实现。

RESEARCH · CL_56328 · May 27 · 13:04

新的自动语音识别（ASR）错误分析工具打破脚本障碍

研究人员开发了一种新的自动对齐机制，旨在改进自动语音识别（ASR）错误的分析，特别是针对不使用拉丁字母的语言。该方法与语言无关，并适用于各种ASR架构，能够更一致地对齐假设和参考转录。该系统支持详细的词性（PoS）错误分析，可用于增强ASR训练并改进词错误率（WER）等指标。该方法已在使用了元音附标文字、字母文字和辅音字母文字书写系统的语言上进行了演示。

RESEARCH · CL_18252 · May 5 · 12:09

新范式通过将错误与人类感知相关联来改进ASR指标

研究人员提出了一种用于评估自动语音识别（ASR）系统的新范式，旨在改进现有的词错误率（WER）和字符错误率（CER）等指标。所提出的方法结合了选定的指标来生成最小编辑距离（minED），该距离与人类感知有更好的相关性，并考虑了语言和语义信息。这种方法允许从人类的角度更细致地研究转录错误的严重性。

RESEARCH · CL_11761 · Apr 28 · 04:00

新的大语言模型统一音频和语言处理，支持全双工和医疗应用

研究人员开发了UAF，这是一种新颖的统一音频前端大语言模型，专为全双工语音交互而设计。该模型将语音活动检测和轮流发言等各种音频前端任务整合到一个序列预测问题中。UAF旨在降低对话式AI系统的延迟并提高中断准确性。此外，Au-M-ol被提出作为一种多模态架构，将大语言模型扩展到医疗音频和语言理解领域，显著降低了医疗转录的词错误率。

RESEARCH · CL_06335 · Apr 27 · 10:11

研究人员推出RAS，一种用于可靠语音识别系统的新度量指标

研究人员推出了一种名为RAS的新度量指标，旨在评估自动语音识别（ASR）系统的可靠性。与仅关注准确性的传统度量指标不同，RAS考虑了系统在转录中的置信度，尤其是在嘈杂或模糊的条件下。所提出的框架允许ASR模型在不确定的片段上弃权，RAS通过人类偏好进行校准，平衡了转录的信息量和避免错误。实验表明，这种方法在保持具有竞争力的准确性的同时，显著提高了转录的可靠性。

TOOL · CL_03555 · Apr 23 · 15:49

Gladia 开源标准化库以提高 STT 评估准确性

一个名为 gladia-normalization 的新开源库已发布，旨在解决语音转文本 (STT) 模型评估中的不一致问题。该库在计算词错误率 (WER) 之前对转录文本进行标准化，防止格式差异被错误地标记为错误。该工具提供在 YAML 中定义的、可配置的标准化流程，确保评估过程具有确定性和版本可控性。