English(EN) Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

Audio-LLMs 增强语音翻译数据过滤

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-11 15:55

研究人员开发了一种新颖的方法，利用音频大型语言模型 (Audio-LLMs) 来过滤嘈杂的语音到语音翻译 (S2ST) 训练数据。该方法采用两阶段的 Rank-to-Distill 策略，其中初始排序器生成用于保留或丢弃语音对的伪标签，然后训练一个 Audio-LLM 直接从音频中做出这些决策。该模型能有效捕捉声学保真度和跨语言语义一致性，从而在 S2ST 性能上取得显著改进，在基准数据集上 ASR-BLEU 的提升高达 +1.4。 AI

影响提高了语音翻译模型的训练数据质量，有望带来更准确、更鲁棒的语音到语音翻译系统。

排序理由该集群描述了一篇在 arXiv 上发表的研究论文，其中详细介绍了一种用于过滤语音到语音翻译训练数据的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Qixu Chen, Satoshi Nakamura · 2026-06-12 04:00

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

arXiv:2606.13507v1 Announce Type: new Abstract: Large-scale mined corpora provide abundant training data for end-to-end speech-to-speech translation (S2ST) but may contain noise, misalignment, and semantic errors. Filtering noisy data is crucial to maintain robust speech translat…
arXiv cs.CL TIER_1 English(EN) · Satoshi Nakamura · 2026-06-11 15:55

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

Large-scale mined corpora provide abundant training data for end-to-end speech-to-speech translation (S2ST) but may contain noise, misalignment, and semantic errors. Filtering noisy data is crucial to maintain robust speech translation performance. We study how to train an audio-…

报道来源 [2]

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

相关话题