研究人员开发了一种新颖的方法,利用音频大型语言模型 (Audio-LLMs) 来过滤嘈杂的语音到语音翻译 (S2ST) 训练数据。该方法采用两阶段的 Rank-to-Distill 策略,其中初始排序器生成用于保留或丢弃语音对的伪标签,然后训练一个 Audio-LLM 直接从音频中做出这些决策。该模型能有效捕捉声学保真度和跨语言语义一致性,从而在 S2ST 性能上取得显著改进,在基准数据集上 ASR-BLEU 的提升高达 +1.4。 AI
影响 提高了语音翻译模型的训练数据质量,有望带来更准确、更鲁棒的语音到语音翻译系统。
排序理由 该集群描述了一篇在 arXiv 上发表的研究论文,其中详细介绍了一种用于过滤语音到语音翻译训练数据的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →