LibriSpeech · PulseAugur

新的COALA框架通过上下文偏置提升语音识别能力

研究人员开发了COALA，一个旨在通过整合外部知识来改进自动语音识别（ASR）系统的新型框架。COALA通过将潜在表示映射到判别空间来增强语音增强语言模型（SLM），从而能够精确量化音频片段与候选实体的匹配程度。该方法解决了SLM上下文窗口的局限性，并解决了多目标发音中的训练崩溃问题，在LibriSpeech基准测试中展示了卓越的上下文偏置性能。

RESEARCH · CL_127566 · Jul 6 · 00:00

Apple 和 Cohere 通过专用高效模型推进 ASR

Apple 的机器学习研究团队开发了一种使用紧凑型 seq2seq 模型进行自动语音识别 (ASR) 错误纠正的新方法。这些模型在真实和合成 ASR 错误上进行训练，在效率和准确性方面，尤其是在低错误场景下，显著优于大型语言模型 (LLM)。与此同时，Cohere 推出了 Transcribe，一个拥有 20 亿参数的 ASR 模型，据报道其在速度和精度方面，尤其是在阿拉伯语方言方面，超越了 Whisper Large V3。

TOOL · CL_116438 · Jun 29 · 16:20

用户寻求帮助实现Calm TTS论文，面临语音克隆问题

一位用户正在寻求有关实现研究论文中描述的Calm文本到语音模型的帮助。他们在复制模型性能方面遇到了困难，在生成有意义的文本和实现准确的语音克隆方面遇到了问题。用户尝试了各种技术，包括计划采样和调整数据条件，但面临诸如梯度爆炸以及文本质量与语音保真度之间的权衡等挑战。他们正在寻求关于如何进行的建议，是重新审视论文、增加数据集大小，还是解决潜在的系统设计缺陷。

TOOL · CL_111729 · Jun 26 · 04:00

新型神经说话人分割模型在低资源尼泊尔-印地语语音上表现优异

研究人员开发了一种新的说话人分割方法，即在音频录音中识别谁在何时说话，特别针对尼泊尔-印地语等低资源语言。他们使用了一个包含英语、多样化说话人录音以及新收集的尼泊尔语和印地语音频的多语言数据集，训练了两种神经网络架构：EEND-EDA 和 DiaPer。利用基于 Perceiver 的吸引子（attractors）的 DiaPer 模型表现出卓越的性能，在尼泊尔-印地语测试集上实现了比 EEND-EDA 模型显著更低的说话人分割错误率…

TOOL · CL_109048 · Jun 24 · 00:00

Hugging Face 推出 FFASR 排行榜，用于真实世界 ASR 基准测试

Hugging Face 和 Treble Technologies 推出了 FFASR 排行榜，这是一个开放的、社区驱动的基准测试，用于评估在真实远场声学条件下自动语音识别 (ASR) 模型的性能。这个新的排行榜旨在弥合干净语音基准测试性能与真实世界部署之间存在的显著差距，在真实世界部署中，混响、背景噪音和麦克风距离通常会降低准确性。FFASR 排行榜采用混合模拟方法，并经过真实世界测量验证，以评估模型在各种嘈杂和混响环境中的性能，…

RESEARCH · CL_107814 · Jun 23 · 05:09

新的自动语音识别方法InterAligner提高了训练稳定性和减少了错误

研究人员开发了一种名为InterAligner的新方法，以提高基于对齐器-编码器的自动语音识别（ASR）模型的训练稳定性和性能。该方法引入了一个中间对齐器目标和一个中间CTC损失，使得对齐过程能够在模型层之间渐进地形成，而不是突然发生。在LibriSpeech数据集上使用17层Conformer进行测试时，InterAligner在test-clean/other上的词错误率（WER）分别为3.1%/5.6%，优于以前的方法，尤其是在…

TOOL · CL_105156 · Jun 22 · 13:21

新研究揭示 CTC 在语音识别中的局限性，强调语言模型的好处

一篇新的研究论文探讨了连接主义时间分类 (CTC) 在语音识别系统中的局限性。研究发现，CTC 的内部评分方法难以超越基本的贪婪解码来提高准确性，并且随着考虑的假设增多，性能会显著下降。这种局限性源于“Oracle Gap”，即声学信息耗尽，阻碍了语言恢复。然而，结合外部语言模型（如 RoBERTa）可以有效地弥合这一差距，从而在各种架构和数据集上显著提高词错误率。

RESEARCH · CL_98162 · Jun 18 · 04:00

新研究通过合成语音、LLM优化和故障减少来应对ASR挑战

研究人员正在开发先进技术以改进自动语音识别（ASR）系统，特别是在代码转换和实时应用等挑战性场景中。一篇论文提出了一种使用合成语音的混合代码引导框架，以提高ASR性能，降低特定数据集上的错误率。另一项研究介绍了NIM4-ASR，一个高效且鲁棒的基于LLM的ASR框架，针对生产环境进行了优化，能够处理嘈杂条件并支持大规模定制。第三篇论文解决了神经编解码文本到语音模型中的灾难性故障，证明ASR自验证和蒸馏可以显著减少这些错误，从而实现更可…

RESEARCH · CL_95869 · Jun 16 · 05:28

新的NAR-MBR解码提高了语音识别的速度和准确性

研究人员开发了一种新的语音识别非自回归解码框架，称为NAR-MBR解码。该方法旨在通过并行生成输出令牌来提高语音识别的速度，克服了非自回归模型通常伴随的性能下降。通过最大化从样本中获得的预期效用，而不是直接概率，NAR-MBR解码实现了更快的处理速度，并在多个基准数据集上优于以前的非自回归方法。

RESEARCH · CL_84432 · Jun 10 · 09:16

语音模型通过参数聚类进行压缩

研究人员开发了一种无需额外数据或重新训练即可压缩语音基础模型的新方法。该方法利用k-means进行通道聚类，通过改变每层的聚类数量来探索混合稀疏性剪枝。在LibriSpeech上的实验表明，与基于幅值的剪枝相比，在HuBERT-large和Whisper-large-v3等模型上，即使在相当高的稀疏度下，词错误率（WER）也显著降低。

TOOL · CL_82584 · Jun 10 · 04:00

新模型使用连续空间进行语音识别和翻译

研究人员推出了一种名为ELF-S2T的新型语音转文本系统方法，该系统在连续潜在空间而非离散文本标记中运行。该模型基于嵌入式语言流（ELF）骨干，将音频条件和流匹配去噪用于语音识别和翻译任务。在标准数据集上的实验表明其性能具有竞争力，并揭示了识别和翻译中的错误源于此连续潜在空间中相似的混淆。

RESEARCH · CL_65569 · Jun 1 · 17:49

新的ASR方法应对计算扩展和多语言评估

研究人员正在开发新的方法来改进自动语音识别（ASR）系统。一种名为LARM的方法使用深度条件循环Transformer，允许可调的测试时间计算，实现了与更深层模型相媲美的性能。另一个系统Murmur通过平衡低延迟的基于块的处理和准确性的长上下文模型，利用注意力稀疏性来处理长篇ASR。此外，还提出了一种名为脚本归一化WER（SN-WER）的新指标，通过对脚本差异进行归一化，以更准确地评估多语言环境下的ASR性能，特别是对于印度语言。

TOOL · CL_65131 · May 31 · 10:15

神经形态Mamba模型提升语音识别效率

研究人员开发了Mamba模型的新型神经形态版本，以实现更高效的自动语音识别（ASR）。通过结合脉冲和事件驱动的神经网络技术，他们实现了显著的激活稀疏性，降低了计算需求和能耗。这些进步对于在资源受限的边缘设备上部署ASR同时保持高精度至关重要。

TOOL · CL_44843 · May 22 · 04:00

量化研究使更小、更准确的Whisper-small ASR成为可能

一篇新发布的arXiv研究论文评估了用于Whisper-small自动语音识别模型的各种训练后量化（PTQ）技术。该研究测试了PyTorch、Optimum-Quanto、HQQ和bitsandbytes等库，发现使用Quanto的动态int8量化在压缩和准确性之间取得了最佳平衡。该方法将模型大小减少了57%，同时在LibriSpeech数据集上略微提高了词错误率，使得Whisper-small更容易部署在资源受限的设备上。

TOOL · CL_32709 · May 14 · 06:19

新框架利用微积分优化自动语音识别词汇量大小

研究人员开发了一个基于微积分的框架，用于确定端到端自动语音识别（ASR）系统的最佳词汇量大小。与传统的混合ASR不同，端到端系统从训练数据中派生其词汇量，使得词汇量大小成为一个关键的超参数。这种新方法利用曲线拟合和微积分原理来正式估计最佳词汇量大小，从而提高了ASR在Librispeech等标准数据集上的性能。

RESEARCH · CL_09815 · Apr 29 · 10:28

新研究探索使用纯文本数据加速编码器主导的语音识别模型

本文介绍了一种利用纯文本数据增强语音识别模型的新方法。该研究侧重于编码器主导的架构，证明了更大的编码器与更小的解码器配对可以实现与具有更大解码器的模型相当或更好的性能。研究发现，像随机时长模型这样的简单配置通常优于更复杂的方法，从而简化了训练过程。所有相关的代码和实验设置均已公开发布。