PulseAugur
实时 07:41:19
English(EN) Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

Audio-LLMs 增强语音翻译数据过滤

研究人员开发了一种新颖的方法,利用音频大型语言模型 (Audio-LLMs) 来过滤嘈杂的语音到语音翻译 (S2ST) 训练数据。该方法采用两阶段的 Rank-to-Distill 策略,其中初始排序器生成用于保留或丢弃语音对的伪标签,然后训练一个 Audio-LLM 直接从音频中做出这些决策。该模型能有效捕捉声学保真度和跨语言语义一致性,从而在 S2ST 性能上取得显著改进,在基准数据集上 ASR-BLEU 的提升高达 +1.4。 AI

影响 提高了语音翻译模型的训练数据质量,有望带来更准确、更鲁棒的语音到语音翻译系统。

排序理由 该集群描述了一篇在 arXiv 上发表的研究论文,其中详细介绍了一种用于过滤语音到语音翻译训练数据的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Qixu Chen, Satoshi Nakamura ·

    Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

    arXiv:2606.13507v1 Announce Type: new Abstract: Large-scale mined corpora provide abundant training data for end-to-end speech-to-speech translation (S2ST) but may contain noise, misalignment, and semantic errors. Filtering noisy data is crucial to maintain robust speech translat…

  2. arXiv cs.CL TIER_1 English(EN) · Satoshi Nakamura ·

    Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

    Large-scale mined corpora provide abundant training data for end-to-end speech-to-speech translation (S2ST) but may contain noise, misalignment, and semantic errors. Filtering noisy data is crucial to maintain robust speech translation performance. We study how to train an audio-…