Audio-LLMs enhance speech translation data filtering

By PulseAugur Editorial · [2 sources] · 2026-06-11 15:55

Researchers have developed a novel method using audio-large language models (Audio-LLMs) to filter noisy speech-to-speech translation (S2ST) training data. This approach employs a two-stage Rank-to-Distill strategy, where an initial ranker generates pseudo-labels for keeping or dropping speech pairs, which then train an Audio-LLM to make these decisions directly from audio. The model effectively captures acoustic fidelity and cross-lingual semantic consistency, leading to significant improvements in S2ST performance, with gains of up to +1.4 ASR-BLEU on benchmark datasets. AI

IMPACT Improves the quality of training data for speech translation models, potentially leading to more accurate and robust speech-to-speech translation systems.

RANK_REASON The cluster describes a research paper published on arXiv detailing a new method for filtering training data for speech-to-speech translation.

Read on arXiv cs.CL →

AI-generated summary · Google Gemini · from 2 sources. How we write summaries →

COVERAGE [2]

arXiv cs.CL TIER_1 English(EN) · Qixu Chen, Satoshi Nakamura · 2026-06-12 04:00

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

arXiv:2606.13507v1 Announce Type: new Abstract: Large-scale mined corpora provide abundant training data for end-to-end speech-to-speech translation (S2ST) but may contain noise, misalignment, and semantic errors. Filtering noisy data is crucial to maintain robust speech translat…
arXiv cs.CL TIER_1 English(EN) · Satoshi Nakamura · 2026-06-11 15:55

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

Large-scale mined corpora provide abundant training data for end-to-end speech-to-speech translation (S2ST) but may contain noise, misalignment, and semantic errors. Filtering noisy data is crucial to maintain robust speech translation performance. We study how to train an audio-…

COVERAGE [2]

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

RELATED TOPICS