speech recognition · PulseAugur

新的 GRPO 方法提升合成语音 ASR 性能

研究人员开发了一种名为 Group Relative Policy Optimization (GRPO) 的新方法，以改进自动语音识别 (ASR) 模型，特别是在使用合成语音进行训练时。这种强化学习方法在降低词错误率 (WER) 方面显著优于传统的监督微调 (SFT)。GRPO 相较于 SFT 实现了 40% 的相对 WER 降低，而 SFT-然后-GRPO 的组合方法进一步将性能提高了 45%。这些提升归因于 GRPO 增强停止校…

RESEARCH · CL_135154 · Jul 9 · 11:40

研究揭示对话时序影响语音识别合成训练数据

本文研究了对话时序对用于训练自动语音识别（ASR）系统的合成数据的影响。研究人员探索了与停顿和重叠时序相关的四维参数空间，生成模拟对话来训练ASR模型。研究发现，模拟数据中较高的重叠与较低的词错误率相关，而较长和变化较大的停顿会增加错误。贝叶斯优化提供了关于这种重叠-间隙权衡的分析见解，表明时序剖面的任务相关诊断对于改进模拟训练数据至关重要。

RESEARCH · CL_135171 · Jul 9 · 09:01

语音合成评估受自动语音识别家族对齐干扰，提出新的集成方法

研究人员发现，在使用自动语音识别（ASR）验证器评估文本到语音（TTS）系统时存在一个重大的混淆因素。这些验证器的表面质量很大程度上受用于判断的ASR家族影响，导致排名颠倒和性能指标虚高。为解决此问题，该论文提出跨家族排名集成方法，该方法可实现更低的词错误率，并在其他指标上保持性能，建议进行跨评估器三角测量以获得稳健的报告。

RESEARCH · CL_135193 · Jul 9 · 05:26

新的COALA框架通过上下文偏置提升语音识别能力

研究人员开发了COALA，一个旨在通过整合外部知识来改进自动语音识别（ASR）系统的新型框架。COALA通过将潜在表示映射到判别空间来增强语音增强语言模型（SLM），从而能够精确量化音频片段与候选实体的匹配程度。该方法解决了SLM上下文窗口的局限性，并解决了多目标发音中的训练崩溃问题，在LibriSpeech基准测试中展示了卓越的上下文偏置性能。

RESEARCH · CL_135288 · Jul 9 · 04:54

新的罗马尼亚视觉语音识别数据集VSRo-200发布

研究人员发布了VSRo-200，一个用于罗马尼亚语视觉语音识别的新大规模数据集。该数据集包含200小时的真实播客视频，其中一部分由人工标注，其余部分由微调后的罗马尼亚语ASR模型生成的伪标签标注。该资源旨在为低资源视觉语音识别建立基准，并促进对监督质量、领域泛化和多模态融合的研究。

TOOL · CL_133500 · Jul 9 · 04:00

新的多模态方法通过多语言文本增强音频情感分析

研究人员开发了一种新颖的多模态音频情感分析方法，该方法集成了语音识别和机器翻译以提高准确性。该方法使用跨模态 Transformer 结合音频特征和自动生成的多语言文本转录。研究表明，引入这些生成的文本模态显著提高了情感极性分类的性能。此外，还采用了知识蒸馏来增强仅音频模型，在不增加推理计算的情况下提高了其效率。

TOOL · CL_129083 · Jul 7 · 04:00

新的西班牙语语音语料库旨在改善神经系统疾病的自动语音识别

研究人员推出了 S-DiverSe，这是一个新的西班牙语语音数据语料库，专门用于改进针对神经系统疾病患者的自动语音识别 (ASR)。该数据集包含 3.2 小时的野外录音，来自 22 名患有肌萎缩侧索硬化症、帕金森病和中风的西班牙语使用者。S-DiverSe 包含 444 个转录的音频片段，并附有说话者特征和病症的元数据，旨在促进针对这一具有挑战性的语音领域的 ASR 开发和评估。初步实验表明，文本后处理方法比微调更能有效地使 ASR …

TOOL · CL_129078 · Jul 7 · 04:00

新框架提升印度语言的自动语音识别和方言识别能力

研究人员开发了一个新颖的多模态框架，用于同时增强印度语言的自动语音识别（ASR）和方言识别（DID）。该方法利用一个瓶颈编码器从 Conformer 语音表示中提取方言特征，并使用一个 RoBERTa 编码器处理 ASR 生成的嵌入，通过门控机制将它们融合。该方法在八种印度语言和三十三种方言上进行了测试，平均方言识别准确率达到 81.63%，并且在自动语音识别方面表现具有竞争力，词错误率（CER）和词错误率（WER）分别为 4.65%…

TOOL · CL_129067 · Jul 7 · 04:00

SeaAlert 框架增强了对嘈杂海事遇险呼叫的分析

研究人员开发了 SeaAlert，一个旨在改进海事遇险通信分析的新框架。该系统利用基于 transformer 的严重程度分类和基于 LLM 的信息提取来处理嘈杂和非标准的遇险消息。为了克服标记数据的缺乏，创建了一个合成数据生成管道，生成了各种遇险消息，然后通过 ASR 系统对其进行模拟噪声降级和处理。评估表明，与传统方法相比，SeaAlert 的 transformer 模型对通信中的噪声和变化更具弹性，而其基于 LLM 的提取被证…

RESEARCH · CL_128424 · Jul 6 · 17:40

新的REDDIT框架可在不遗忘模型的情况下纠正ASR时间戳漂移

研究人员开发了REDDIT，一个新颖的训练后框架，旨在纠正自动语音识别（ASR）系统中的时间戳漂移，而不会导致灾难性遗忘。该方法使用基于重放的分布编辑技术，通过重放模型自身的解码器上下文来精炼时间戳，同时保留非时间戳标记的分布。该框架在Whisper-tiny上将长间隔mIoU从38.7%提高到95.0%，参数更新极少，同时显著减少了域外时间戳错误。

RESEARCH · CL_128487 · Jul 6 · 15:39

新的ASR方法通过伪标签解决普通话-英语混合语问题

研究人员开发了一种新颖的迭代伪标签技术，以改进普通话-英语混合语的自动语音识别（ASR）。该方法利用大量未标记数据集创建半监督训练数据，然后用于两阶段双语模型训练过程。迭代精炼提高了模型处理复杂语言交替的能力，从而显著降低了基准数据集上的混合错误率（MER）。

RESEARCH · CL_128480 · Jul 6 · 08:49

跨语言迁移学习在低资源ASR方面效果不一

研究人员探索了跨语言迁移学习以改进低资源语言的自动语音识别（ASR）。一项研究成功利用僧伽罗语提升了迪维希语ASR，通过持续预训练和微调实现了12.89%的词错误率（WER）。相比之下，另一项研究发现，对于大规模多语言ASR模型，在相关辅助语言上进行预适应并未显著提升低资源非洲语言的性能，表明在这种情况下，语言相关性本身可能不足够。

TOOL · CL_127163 · Jul 6 · 07:02

语音AI服务因数据库连接池过小而崩溃

一家语音AI服务公司在与新合作伙伴的集成后，由于预料之外的电话量激增，并发呼叫数达到约200个，导致系统出现严重中断。该系统依赖持久连接进行语音识别（STT）、语音合成（TTS）、模型交互和数据库状态管理，但由于PostgreSQL连接池过小而失效。这种瓶颈导致电话挂断或在通话中途掉线，因为被阻塞的数据库请求阻止了其他进程的推进。修复方法包括增加连接池大小和实施显式的并发门控来管理资源分配。

TOOL · CL_120829 · Jul 1 · 21:51

语音助手可观测性差距隐藏着关键的音频层故障

语音助手的可观测性工具通常只关注LLM组件，忽略了关键的音频层故障。这些故障，如过早的结束说话检测或缓慢的抢话检测，即使LLM表现完美，也可能导致通话在句子未完时中断。开发者需要为ASR延迟、置信度分数、抢话检测和首次音频时间等仪器化自定义跨度，以全面了解语音助手的性能。

RESEARCH · CL_119513 · Jun 30 · 06:15

AI模型通过语音分析以90%的准确率检测阿尔茨海默病

研究人员开发了一种新颖的多视图门控图注意力网络，用于通过自发语音检测阿尔茨海默病（AD）。该模型从转录的音频中构建语义图、依赖图和共现图，并通过“内容-结构-流程”框架分析语音。一项关键创新是使用共现图中的点互信息（PMI）来评估叙事逻辑和语言偏差。该网络还采用自适应门控融合机制，动态整合这些不同的数据视图，以应对AD的临床异质性。在ADReSSo数据集上进行测试，该模型达到了90.00%的准确率，消融研究突显了基于PMI的图和门控机…

RESEARCH · CL_119611 · Jun 30 · 04:15

新的ASR基准测试方法突显了非典型语音识别的差异

一篇新发表在arXiv上的研究论文介绍了一种用于自动语音识别（ASR）系统的双参考基准测试方法，特别解决了非典型语音的挑战。研究强调，大多数ASR评估将逐字转录和意图转录参考混淆，可能错误地表示模型性能。通过在口吃语音上使用逐字和意图参考对11个ASR模型进行基准测试，研究表明模型排名根据所选参考风格的不同存在显著差异。这突显了为准确的模型评估选择适当的转录参考的至关重要性，尤其是在涉及非典型语音的用例中。

TOOL · CL_117803 · Jun 30 · 04:00

新的ASR训练方法提高了在大规模数据集上的性能

研究人员开发了一种新方法，通过更有效地利用大规模、弱监督数据集来改进自动语音识别（ASR）模型。他们的方法包括三个步骤：首先在整个数据集上进行初始预训练，然后继续在通过字符错误率识别出的过滤子集上进行预训练，最后在声学上相似的小样本选择上进行微调。使用90,000小时的日语数据集进行的实验表明，字符错误率显著降低，过滤和选择方法分别独立将CER降低了高达6.4%和4.0%。

RESEARCH · CL_117126 · Jun 29 · 16:51

新的ANTAP系统为多智能体AI路由创建“语言防火墙”

研究人员开发了ANTAP（自动非文本智能体选择器），一种新颖的多智能体系统路由架构，通过超越文本描述等间接代理来增强安全性。ANTAP采用主动能力测试来实证确定智能体能力，将性能提炼为固定的行为算子。这种方法创建了一个“语言防火墙”，可以防止基于元数据的攻击，在针对基于描述的注入攻击时实现近乎零的自动语音识别（ASR），并且与基线方法相比，在针对自适应嵌入攻击时ASR降低了20%。

TOOL · CL_114395 · Jun 28 · 09:11

Whisperian Android应用集成本地ASR模型

Whisperian是一款评价很高的Android应用程序，允许用户利用本地自动语音识别（ASR）模型配合设备的麦克风。该应用程序可在Google Play商店下载，为将本地语音转文本功能集成到移动设备使用中提供了一种便捷的方式。

RESEARCH · CL_115203 · Jun 26 · 11:21

AI模型利用语音分析进行痴呆症检测和临床洞察 · 跟踪4个来源

研究人员正在开发先进的AI模型，利用语音分析进行早期痴呆症检测。一种方法结合了来自Whisper的声学特征和LLM提取的语言生物标志物，在基准数据集上取得了高F1分数。另一种方法利用LoRA调优的LLM处理多种语音衍生信号，包括转录文本和主题线索，以进行全面分析。第三个框架侧重于可解释性，使用SHAP和LLaMA-3.1-70B-Instruct将复杂的模型预测转化为临床上可理解的洞察，显示出与临床工作流程整合的潜力。