Automatic Speech Recognition

语音AI平台为企业应对客户服务挑战提供解决方案

语音AI平台正成为解决企业客户服务等待时间长和联系中心人员流失率高问题的实用方案。这些平台利用自动语音识别（ASR）、自然语言理解（NLU）、文本转语音（TTS）和对话管理，从头到尾处理客户对话，或者至少处理到需要人工介入的程度。与旧式的电话菜单系统不同，语音AI能够理解意图并适应对话的细微差别，并且通过持续学习不断提高性能，而无需企业具备内部技术专长。

RESEARCH · CL_117645 · Jun 30 · 04:00

新研究应对大语言模型对齐、安全和优化挑战

研究人员正在探索改进大语言模型（LLM）对齐和可靠性的新方法。一项研究发现字节对编码（BPE）分词中存在一个漏洞，该漏洞可能被利用来绕过安全机制，导致多个模型系列产生有害输出。另一篇论文提出了一个名为HAL的框架，通过优化明确的、可解释的对话特征来诱导大语言模型产生类似人类的对话行为。此外，一个名为Object Aligner的新库提供了一种可配置的方法来评估JSON模式相似度，这对于大语言模型提示优化和工具使用非常有用。最后，对大语…

RESEARCH · CL_117603 · Jun 30 · 04:00

新研究推动了用于构音障碍语音和合成数据使用的ASR · 跟踪4个来源

研究人员正在探索改进自动语音识别（ASR）系统的新方法。一项研究详细介绍了如何使用个性化数据对Whisper模型进行微调，显著降低了构音障碍语音的词错误率，在使用大量数据的情况下达到了9.7%的错误率。另一篇论文研究了使用合成语音训练ASR系统，发现通过房间冲激响应增强合成音频可以弥合与真实世界数据的差距。此外，一个名为PreferenceASR的新测试集已被开发出来，用于根据ASR系统遵循用户指定输出偏好的能力进行评估，揭示了传统基…

TOOL · CL_100168 · Jun 19 · 04:00

韩语口语问答研究强调语音识别错误对大语言模型的影响

一篇新的研究论文分析了韩语语音识别中的错误如何影响大语言模型（LLMs）在口语问答（SQA）中的性能。研究发现，语音识别错误造成的性能下降在不同大语言模型之间是一致的，这表明语音识别阶段的信息损失是导致性能下降的主要原因。研究还发现，韩语转录中的单字符错误是一种独特的脆弱性，会改变预期问题并降低问答准确性。一项辅助比较表明，大型音频语言模型可能通过直接处理音频输入提供更稳健的解决方案，从而可能减轻转录错误引起的问题。

RESEARCH · CL_86652 · Jun 11 · 17:41

语音表示影响3D面部动画质量

研究人员探讨了不同的语音表示如何影响3D面部动画的质量。该研究比较了四类语音表示，并使用客观和感知测量方法，通过两个面部解码器评估了它们的有效性。研究结果表明，在语音表示中编码语音类别可以更准确地预测面部动画。

TOOL · CL_81713 · Jun 9 · 21:34

开源工具和ASR基准测试推动本地AI能力发展

本周AI新闻重点介绍了用于双语语音代理的自动语音识别（ASR）的进展，并介绍了两个关键的开源计算机视觉工具。ASR的重点是对代码切换语音的前沿模型进行基准测试，这对于本地AI应用至关重要。此外，Roboflow Supervision和OpenCV被介绍为开发人员在消费级GPU上构建多模态AI，强调本地部署和数据隐私的关键库。

TOOL · CL_78238 · Jun 8 · 14:15

ASR 经过三周的努力后针对印度银行电话进行了微调

本文详细介绍了针对印度银行业务电话的独特挑战，对自动语音识别 (ASR) 系统进行微调的过程。作者花费了三周时间试验了多个模型，以解决口音多样性和技术术语等问题。目标是创建一个针对这一细分应用的功能性 ASR 管道。

RESEARCH · CL_68139 · Jun 2 · 17:46

LLMs生成合成对话以促进ASR训练

研究人员开发了一种新颖的方法，通过生成合成对话数据来增强低资源语言的自动语音识别（ASR）训练。该流程使用LLMs创建对话，将说话者属性映射到TTS语音配置文件，并组装模拟对话。在匈牙利BEA-Dialogue基准上的评估表明，这种合成数据显著提高了ASR性能，甚至优于在更大真实数据集上训练的模型。

RESEARCH · CL_65569 · Jun 1 · 17:49

新的ASR方法应对计算扩展和多语言评估

研究人员正在开发新的方法来改进自动语音识别（ASR）系统。一种名为LARM的方法使用深度条件循环Transformer，允许可调的测试时间计算，实现了与更深层模型相媲美的性能。另一个系统Murmur通过平衡低延迟的基于块的处理和准确性的长上下文模型，利用注意力稀疏性来处理长篇ASR。此外，还提出了一种名为脚本归一化WER（SN-WER）的新指标，通过对脚本差异进行归一化，以更准确地评估多语言环境下的ASR性能，特别是对于印度语言。

TOOL · CL_58633 · May 29 · 04:00

新的代理式ASR框架模仿人类交互进行语音识别

研究人员推出了一种名为“Agentic ASR”的新型框架，旨在通过模仿人类交互式纠错来改进自动语音识别（ASR）。与传统的单通道系统不同，Agentic ASR 在闭环中运行，结合了语义纠错、意图路由和基于推理的编辑，以解决对意义至关重要的错误。该框架还引入了一种新的评估指标——句子级语义错误率（$S^2ER$），它比传统的词错误率（WER）等标记级指标更符合人类的理解。实验表明，这种交互式方法显著减少了语义错误，尤其是在涉及多语言…

TOOL · CL_56296 · May 28 · 04:00

新的TARQ技术提高了罕见词的ASR准确性

研究人员开发了一种名为TARQ的新型训练后量化技术，旨在提高自动语音识别（ASR）系统的准确性，特别是针对罕见词。TARQ通过将校准重点转移到名称和数字等不常出现但对理解至关重要的术语上，解决了现有方法的局限性。这种新颖的方法不需要额外的训练或标记数据，已在各种ASR模型和数据集上证明了在罕见词错误率方面的改进性能，而不会对整体准确性产生负面影响。

SIGNIFICANT · CL_55755 · May 28 · 03:04

阿里巴巴AI语音模型在Speech Arena上排名全球第五、中国第一

阿里巴巴的新AI语音模型Fun-Realtime-TTS-Preview在Speech Arena基准测试中取得了全球顶尖排名，位列全球第五、中国第一。该模型在语音识别（ASR）、语音合成（TTS）以及端到端的语音理解和对话（Chat）等多种语音能力方面表现强劲。值得注意的是，阿里巴巴的ASR模型在另一项评估中也实现了最低的词错误率，凸显了其转录语音的准确性。

TOOL · CL_54716 · May 27 · 13:06

Noisekit CLI 为 ASR 基准测试生成逼真的降级音频

一款名为 noisekit 的新命令行工具已发布，旨在帮助基准测试自动语音识别 (ASR) 系统。它通过应用各种噪声和失真条件来生成逼真的降级音频数据集，这些条件模拟了电话通话等真实场景。这使得开发人员能够创建带注释的嘈杂数据集，以进行更准确的性能评估，而不是依赖于干净的录音室录音数据。

TOOL · CL_51864 · May 26 · 07:23

Intel NPU 加速智能家居 ASR，在速度和能耗方面优于 CPU

一位用户已成功将其 Intel Arrow Lake NPU 用于智能家居设置中的自动语音识别 (ASR)，取得了显著的性能提升。与 CPU 相比，NPU 处理 10 秒音频剪辑的速度快了 4.8 倍，能耗则低了 10.7 倍。这使得 CPU 可以从繁重的任务中解放出来，用于其他进程，并为 LLM 操作节省 VRAM。

RESEARCH · CL_51265 · May 25 · 03:57

新方法通过诊断 ASR-LLM 错误来增强语音对话系统

研究人员开发了一种新颖的方法来改进语音对话系统，通过解决级联自动语音识别 (ASR) 和大型语言模型 (LLM) 管道中的错误传播问题。这种新方法通过分析深度 ASR 潜在表示，使用细粒度检测器来识别感知、理解和删除失败等特定错误类型。这种诊断智能使 LLM 能够实施有针对性的澄清策略，从而在各种条件下显著降低词错误率 (WER) 并提高下游任务性能。

COMMENTARY · CL_47605 · May 25 · 03:00

2026年AI语音助手提供面向个人和商业用途的高级功能

2026年的AI语音助手在理解自然语音、持续学习和个性化响应方面有了显著的进步，它们利用LLM、ASR、ML和NLP技术。这些助手分为两类：用于日常任务的个人助手和用于工作流程自动化及知识检索的商业助手。文章强调，最佳助手应根据个人需求（如集成性、准确性、安全性、语言支持等）来确定，而非仅仅依据品牌名称。

TOOL · CL_32731 · May 14 · 15:15

新型神经层nASR增强了BCI的EEG伪影去除能力

研究人员开发了nASR，这是一种新颖的可训练神经层，旨在改进脑机接口（BCI）的脑电图（EEG）信号处理。该新层通过引入可训练参数，克服了现有伪影子空间重建（ASR）方法的局限性，从而能够更精确地检测伪影并进行选择性的通道级重建。一项消融研究表明，nASR变体在分类指标上优于传统ASR，并显著缩短了推理时间，使其适用于实时BCI应用。

COMMENTARY · CL_23142 · May 8 · 14:27

语音AI悖论：高级对话，基础故障

像Yandex的Alisa这样的语音AI助手表现出一种悖论：它们拥有高级的对话能力，却在基本功能上出现故障，这源于其复杂的架构。这种混合系统结合了语音识别、推荐算法、LLM和启发式方法，创造出一种人格的幻觉，使用户对错误更加宽容。底层的LLM通过预测下一个词元来生成响应，导致产生听起来自信的幻觉，并在不同处理阶段之间丢失上下文，而语音活动检测（VAD）可能导致意外激活。

RESEARCH · CL_13577 · May 3 · 07:47

Sakana AI 的 KAME 架构在不引入延迟的情况下将 LLM 知识注入语音 AI

Sakana AI 开发了 KAME，一种新颖的语音到语音 AI 串联架构，旨在结合直接系统的速度和基于 LLM 方法的知识深度。KAME 由两个异步组件运行：前端生成即时响应，后端 LLM 实时注入更丰富的知识。这使得系统能够在句子中间更新其响应，模仿人类对话调整而不会引入明显延迟。

RESEARCH · CL_09296 · Apr 29 · 16:36

塔马西特语单语种语音数据集在 Hugging Face 上发布

一个针对塔马西特语的新单语种语音数据集已在 Hugging Face 和 Mozilla Data Collective 上发布。该数据集旨在用于人工智能应用，例如自动语音识别 (ASR) 和文本转语音 (TTS) 系统。此次发布旨在支持代表性不足的语言的人工智能工具的开发。