Automatic Speech Recognition
PulseAugur coverage of Automatic Speech Recognition — every cluster mentioning Automatic Speech Recognition across labs, papers, and developer communities, ranked by signal.
6 天有情绪数据
-
ASR 经过三周的努力后针对印度银行电话进行了微调
本文详细介绍了针对印度银行业务电话的独特挑战,对自动语音识别 (ASR) 系统进行微调的过程。作者花费了三周时间试验了多个模型,以解决口音多样性和技术术语等问题。目标是创建一个针对这一细分应用的功能性 ASR 管道。
-
LLMs生成合成对话以促进ASR训练
研究人员开发了一种新颖的方法,通过生成合成对话数据来增强低资源语言的自动语音识别(ASR)训练。该流程使用LLMs创建对话,将说话者属性映射到TTS语音配置文件,并组装模拟对话。在匈牙利BEA-Dialogue基准上的评估表明,这种合成数据显著提高了ASR性能,甚至优于在更大真实数据集上训练的模型。
-
New ASR methods tackle compute scaling and multilingual evaluation
Researchers are developing new methods to improve automatic speech recognition (ASR) systems. One approach, LARM, uses a depth-conditioned looped Transformer to allow for adjustable test-time computation, achieving perf…
-
Noisekit CLI 为 ASR 基准测试生成逼真的降级音频
一款名为 noisekit 的新命令行工具已发布,旨在帮助基准测试自动语音识别 (ASR) 系统。它通过应用各种噪声和失真条件来生成逼真的降级音频数据集,这些条件模拟了电话通话等真实场景。这使得开发人员能够创建带注释的嘈杂数据集,以进行更准确的性能评估,而不是依赖于干净的录音室录音数据。
-
Intel NPU 加速智能家居 ASR,在速度和能耗方面优于 CPU
一位用户已成功将其 Intel Arrow Lake NPU 用于智能家居设置中的自动语音识别 (ASR),取得了显著的性能提升。与 CPU 相比,NPU 处理 10 秒音频剪辑的速度快了 4.8 倍,能耗则低了 10.7 倍。这使得 CPU 可以从繁重的任务中解放出来,用于其他进程,并为 LLM 操作节省 VRAM。
-
2026年AI语音助手提供面向个人和商业用途的高级功能
2026年的AI语音助手在理解自然语音、持续学习和个性化响应方面有了显著的进步,它们利用LLM、ASR、ML和NLP技术。这些助手分为两类:用于日常任务的个人助手和用于工作流程自动化及知识检索的商业助手。文章强调,最佳助手应根据个人需求(如集成性、准确性、安全性、语言支持等)来确定,而非仅仅依据品牌名称。
-
新型神经层nASR增强了BCI的EEG伪影去除能力
研究人员开发了nASR,这是一种新颖的可训练神经层,旨在改进脑机接口(BCI)的脑电图(EEG)信号处理。该新层通过引入可训练参数,克服了现有伪影子空间重建(ASR)方法的局限性,从而能够更精确地检测伪影并进行选择性的通道级重建。一项消融研究表明,nASR变体在分类指标上优于传统ASR,并显著缩短了推理时间,使其适用于实时BCI应用。
-
语音AI悖论:高级对话,基础故障
像Yandex的Alisa这样的语音AI助手表现出一种悖论:它们拥有高级的对话能力,却在基本功能上出现故障,这源于其复杂的架构。这种混合系统结合了语音识别、推荐算法、LLM和启发式方法,创造出一种人格的幻觉,使用户对错误更加宽容。底层的LLM通过预测下一个词元来生成响应,导致产生听起来自信的幻觉,并在不同处理阶段之间丢失上下文,而语音活动检测(VAD)可能导致意外激活。
-
Sakana AI 的 KAME 架构在不引入延迟的情况下将 LLM 知识注入语音 AI
Sakana AI 开发了 KAME,一种新颖的语音到语音 AI 串联架构,旨在结合直接系统的速度和基于 LLM 方法的知识深度。KAME 由两个异步组件运行:前端生成即时响应,后端 LLM 实时注入更丰富的知识。这使得系统能够在句子中间更新其响应,模仿人类对话调整而不会引入明显延迟。
-
塔马西特语单语种语音数据集在 Hugging Face 上发布
一个针对塔马西特语的新单语种语音数据集已在 Hugging Face 和 Mozilla Data Collective 上发布。该数据集旨在用于人工智能应用,例如自动语音识别 (ASR) 和文本转语音 (TTS) 系统。此次发布旨在支持代表性不足的语言的人工智能工具的开发。
-
研究人员通过LLM释义和语音合成增强老年人ASR
研究人员开发了一种新颖的数据增强技术,以改进老年人的自动语音识别(ASR)。该方法利用大型语言模型释义现有文本,生成老年人上下文的变体。然后,使用具有老年参考说话人的文本到语音合成将这些释义文本转换为合成语音。实验表明,与基线模型相比,词错误率显著降低,最高可提高58.2%。
-
新的大语言模型统一音频和语言处理,支持全双工和医疗应用
研究人员开发了UAF,这是一种新颖的统一音频前端大语言模型,专为全双工语音交互而设计。该模型将语音活动检测和轮流发言等各种音频前端任务整合到一个序列预测问题中。UAF旨在降低对话式AI系统的延迟并提高中断准确性。此外,Au-M-ol被提出作为一种多模态架构,将大语言模型扩展到医疗音频和语言理解领域,显著降低了医疗转录的词错误率。
-
MedSpeak框架通过知识图谱校正ASR错误,改进医学问答
研究人员开发了MedSpeak,一个旨在提高医学领域口语问答系统准确性的新框架。该系统利用医学知识图谱来辅助自动语音识别(ASR)纠正错误,尤其是在处理专门的医学术语时。通过将知识图谱中的语义和语音信息与大型语言模型相结合,MedSpeak提高了转录准确性和最终答案的预测。
-
新框架识别语音识别模型中的人口统计学不公平性
一项新的研究论文识别了两种导致语音识别模型人口统计学不公平性的错误类型——随机方差和系统性偏差。研究发现,虽然这两种错误类型都存在,但随机错误似乎是公平性更重要的障碍。有趣的是,使用增强公平性的算法对模型进行微调,并未改变域内探针训练的益处或随机嵌入错误的测量水平。
-
“这不是为我设计的”:ASR偏差在情感和认知上伤害用户
一项新的研究论文强调了自动语音识别(ASR)系统中偏差所带来的情感和心理负担。该研究在美国四个地点进行了用户体验研究,发现参与者常常觉得技术未能顾及他们的文化背景。这导致了自卑感和沮丧感,因为用户付出了大量的隐性劳动,例如语码转换和过度清晰发音,才能使系统正常工作。该论文认为,传统的算法公平性准确性指标忽略了这些关键的伤害维度。