Hubert · PulseAugur

语音合成评估受自动语音识别家族对齐干扰，提出新的集成方法

研究人员发现，在使用自动语音识别（ASR）验证器评估文本到语音（TTS）系统时存在一个重大的混淆因素。这些验证器的表面质量很大程度上受用于判断的ASR家族影响，导致排名颠倒和性能指标虚高。为解决此问题，该论文提出跨家族排名集成方法，该方法可实现更低的词错误率，并在其他指标上保持性能，建议进行跨评估器三角测量以获得稳健的报告。

RESEARCH · CL_128887 · Jul 5 · 00:00

新的音节分词器通过解耦说话人身份来改善语音理解

研究人员开发了一种新颖的说话人解耦音节分词器，通过在固定长度块内将受说话人扰动的表示回归到干净的目标，来改进无监督音节分词。该方法解决了模型预测说话人身份而非语言内容的问题，这是语篇级交叉熵目标常见的问题。所提出的方法在音节边界检测和聚类方面取得了最先进的结果，并且使用这些标记训练的语音语言模型在句法和语义理解方面比 SpiRit-LM 提高了 7% 的相对改进。

TOOL · CL_117978 · Jun 30 · 04:00

BabyHuBERT模型改进了儿童语音录音中的说话人分割

研究人员开发了BabyHuBERT，这是一种新颖的自监督语音模型，专门针对多语言、以儿童为中心的 */长录音*/ 进行训练。该模型旨在改进 */幼儿*/ 录音中的说话人分割，这对于语言发展研究至关重要，但现有 */成人语音*/ 训练的模型处理效果不佳。BabyHuBERT在 */多种语料库*/ 的 */语音类型分类*/ 任务上表现出卓越的性能，尤其是在 */瓦努阿图*/ 和 */所罗门群岛*/ 等 */代表性不足的语言*/ 上取得了显著的进步。

TOOL · CL_117813 · Jun 30 · 04:00

MauBERT论文介绍多语言语音表示用于语音模型

研究人员开发了MauBERT，这是HuBERT自监督学习模型的一个多语言扩展。通过整合55种语言的发音特征和语音到发音的映射，MauBERT学习了与语言无关的语音表示。与现有的多语言模型相比，这种方法展示了更优越的上下文不变表示，并能够以最小的微调有效地适应新语言。

TOOL · CL_115707 · Jun 29 · 04:00

WavLM 通过数据增强技术推进语音用力分类

研究人员利用 WavLM 模型在基于说话人的语音用力分类方面取得了进展，其性能优于 Wav2Vec2 和 HuBERT 等先前的方法。为了应对数据稀缺问题，他们系统地研究了各种增强策略，包括 RIR 卷积、加性噪声、时间掩码、速度扰动、带限、MixUp 和 CutMix，这些策略一致提高了 WavLM 的性能。通过模拟语音用力连续体以减少相邻类别之间的混淆的高斯邻域软标签，进一步实现了性能提升。表现最佳的系统，即采用渐进式解冻、增强和…

TOOL · CL_104735 · Jun 20 · 18:16

研究发现：语音模型在早期层级编码儿童的年龄/性别

研究人员分析了自监督学习（SSL）模型在儿童语音中捕获年龄和性别信息的有效性。该研究聚焦于四种模型：Wav2Vec2、HuBERT、Data2Vec 和 WavLM，并使用 PFSTAR 和 CMU Kids 数据集检查了它们的层级。结果表明，早期到中期层级在编码这些副语言线索方面最有效。HuBERT 在年龄分类方面表现最佳，而 Wav2Vec2 和 HuBERT 在性别分类方面领先。

TOOL · CL_100071 · Jun 19 · 04:00

Transformer模型在古兰经自动语音识别方面准确性有所提高

研究人员对用于古兰经自动语音识别（ASR）的预训练Transformer模型进行了比较研究，旨在降低用户诵读经文时的高词错误率（WER）。该研究在870小时的古兰经数据集上微调了Wav2Vec2.0、HuBERT和XLS-R等模型，确定了转录准确性的关键因素。最佳配置在EveryAyah子集上实现了0.08的WER，相比Citrinet基线有了显著改进，同时还缩短了训练时间。

TOOL · CL_93444 · Jun 16 · 04:00

新的LM-SPT方法增强语音分词，以实现更好的语言模型对齐

研究人员开发了一种新颖的语音分词方法LM-SPT，旨在改善语音与语言模型之间的对齐。与直接蒸馏特征或使用池化的先前方法不同，LM-SPT采用语义语音再合成蒸馏过程。这种间接监督方法鼓励创建与语言模型更对齐的专用语义单元，即使在降低的帧率下也能实现，并且在自动语音识别和文本到语音任务中表现出卓越的性能，同时不牺牲语音重建保真度。

TOOL · CL_82577 · Jun 10 · 04:00

新数据集通过语言线索增强AI对深度伪造音频的检测能力

研究人员推出了Linguistically Augmented Audio Speech Data (LinguAS)，这是一个旨在对抗深度伪造音频日益增长的新数据集。LinguAS包含超过800个真实和伪造的音频样本，并标注了五个自然人类语音的典型语言特征。通过整合这些语言线索和音频特征，在LinguAS上训练的模型在检测音频深度伪造方面，相比现有基线模型表现出显著的性能提升。

RESEARCH · CL_84473 · Jun 10 · 01:07

语音模型泛化识别稀有舌侧塞音

研究人员调查了自监督语音模型是否能准确识别不常见的语音声音，特别是科伊桑语系中发现的舌侧塞音。通过在 G|ui 和 West !Xoon 的数据上微调 Wav2Vec2 和 HuBERT 等模型，他们发现这些模型确实比非舌侧塞音更能有效地识别舌侧塞音。这表明自监督学习使这些模型能够跨越更广泛的人类音素进行泛化，即使是那些在典型训练数据中很少遇到的音素。

TOOL · CL_80102 · Jun 9 · 04:00

AI模型通过多模态语音分析检测帕金森病

研究人员开发了一种新颖的多分支深度学习框架，旨在通过语音分析提高帕金森病的检测率。该方法利用三种不同的语音表征：Log-Mel频谱图、MFCC和HuBERT嵌入，每种都由专门的神经网络处理。一项关键创新是上下文引导的跨模态注意力机制，它动态地整合这些不同的特征，从而提高了疾病识别的准确性。

TOOL · CL_72674 · Jun 5 · 04:00

GeMCL算法扩展少样本语音词分类

研究人员开发了一种名为生成式元持续学习（GeMCL）的新方法，以改进少样本语音词分类。该方法允许模型以每个类别仅五个样本的条件，顺序学习区分1000个类别。与传统的微调或重复训练方法相比，GeMCL表现出稳定的性能和显著更快的适应速度，同时使用了更少的数据和计算资源。

RESEARCH · CL_51285 · May 25 · 16:26

新型NLP模型助力菲律宾语痴呆症检测

研究人员开发了一种使用自然语言处理的痴呆症检测新方法，重点关注菲律宾语等低资源语言。他们创建了一个双语数据集并评估了包括NeoBERT在内的几种Transformer模型，发现双语微调显著提高了性能。这表明在多语言临床NLP中，训练过程中的语言覆盖比模型规模或架构更重要。

RESEARCH · CL_30790 · May 13 · 06:47

生成式元学习在语音词分类中显示出最小的语言影响

研究人员探索了生成式元持续学习在多种语言的语音词分类中的有效性。他们的发现表明，虽然多语言模型表现最佳，但在不同语言组合上训练的模型之间的性能差异却出奇地小。独特的训练数据量似乎比包含的语言数量对性能有更重要的影响。

TOOL · CL_29444 · May 12 · 16:50

新框架使用Whisper改进语音置信度检测

研究人员开发了一种新的半监督框架，用于检测语音中的说话者置信度，解决了标记数据有限的挑战。该方法结合了OpenAI的Whisper模型的深度语义嵌入和可解释的声学特征。一项关键创新是“不确定性感知伪标签”策略，该策略为未标记数据生成和选择高质量标签，从而提高模型性能。

TOOL · CL_15863 · May 5 · 04:00

新框架分析神经网络模型中的概念表征

研究人员开发了一个新框架，用于分析神经网络模型如何表征人类可理解的概念。该框架使用包含和解缠的轴来研究模型内的概念子空间。在文本和语音模型上的实验表明，估计方法的选择会显著影响这些属性，并且虽然语音模型很好地表征了音素信息，但说话人信息更难分离。

RESEARCH · CL_14414 · May 4 · 04:00

在鸟鸣声上训练的AI模型能以高精度对大象叫声进行分类

研究人员已经证明，预先训练好的声学嵌入模型可以在无需微调的情况下有效分类大象的发声。鉴于标注过的生物声学数据的稀缺性和高成本，这种方法尤其有价值，因为传统监督方法常常会导致过拟合。该研究评估了各种嵌入模型，其中Perch 2.0表现最佳，对非洲象和亚洲象的叫声都显示出很高的分类准确率。值得注意的是，来自transformer编码器（如wav2vec2.0和HuBERT）的中间表示被证明信息量很大，这表明了在设备上进行高效处理的潜力。

RESEARCH · CL_06675 · Apr 28 · 04:00

Speech-FT 框架融合预训练和微调模型以实现更好的泛化能力

研究人员开发了 Speech-FT，一个新颖的两阶段微调框架，旨在改进语音表示模型。该方法旨在提高特定任务的性能，同时不牺牲模型跨不同任务的泛化能力。Speech-FT 首先减少微调过程中的表示漂移，然后与原始预训练模型进行插值以恢复泛化能力。实验表明，在 SUPERB 基准测试上取得了显著的改进，在各种微调场景中优于现有方法。

RESEARCH · CL_02104 · Apr 23 · 14:12

新AI方法可稳定地跨语言和病因表征构音障碍

研究人员开发了一种新颖的、无需训练的方法，利用自监督语音表征来评估构音障碍的严重程度。该方法分析了 12 种语言中 3,374 名说话者的语音特征子空间，识别出病因特异性的退化模式。该方法在这些模式上表现出跨语言稳定性和跨不同 SSL 主干的鲁棒性，表明其在语言无关的言语障碍表征方面具有潜力。