PulseAugur
实时 10:38:58

FiLM技术增强了病理性语音的自动语音识别能力

研究人员开发了一种使用特征维度线性调制(FiLM)技术来改进病理性语音自动语音识别(ASR)的新方法。该方法将说话人特定信息注入到冻结的ASR编码器中,使其能够在不改变基础模型权重的情况下适应个体说话人。该方法在西班牙语和英语病理性语音数据集上与现有的适应策略进行了基准测试,显示出具有竞争力的性能,同时保持了回答语音相关问题的能力。 AI

影响 这项研究可能带来更准确的神经系统疾病患者语音识别能力,从而改善可访问性和沟通工具。

排序理由 该集群包含一篇详细介绍语音识别新研究方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Fernando L\'opez, Santosh Kesiraju, Jordi Luque ·

    基于FiLM的语音LLM说话人条件化用于病理性语音识别

    arXiv:2606.06211v1 Announce Type: new Abstract: Automatic speech recognition (ASR) has advanced remarkably for standard speech; however, pathological speech from neurological conditions remains a significant challenge. We investigate speaker conditioning via Feature-wise Linear M…

  2. arXiv cs.CL TIER_1 English(EN) · Jordi Luque ·

    基于FiLM的语音LLM说话人条件化用于病理性语音识别

    Automatic speech recognition (ASR) has advanced remarkably for standard speech; however, pathological speech from neurological conditions remains a significant challenge. We investigate speaker conditioning via Feature-wise Linear Modulation (FiLM), injecting x-vector-derived inf…