DPO improves code-switching speech recognition in audio LLMs

By PulseAugur Editorial · [1 sources] · 2026-05-26 04:00

Researchers have developed a new method using Direct Preference Optimization (DPO) to improve how audio large language models handle speech that switches between English and Mandarin. The models often fail by omitting languages, translating instead of transcribing, or hallucinating content. By training on 100,000 preference pairs, the models learned to preserve the mixed-language content, significantly reducing transcription errors. AI

IMPACT Enhances the accuracy of multilingual speech recognition in LLMs, potentially improving global accessibility and usability.

RANK_REASON Academic paper detailing a new method for improving LLM performance on a specific task. [lever_c_demoted from research: ic=1 ai=1.0]

Read on arXiv cs.CL →

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

COVERAGE [1]

arXiv cs.CL TIER_1 English(EN) · Trung Nguyen Quang, Cheng Yi Lewis Won, Minh Duc Pham, Yingxu He, Shuo Sun, Ai Ti Aw · 2026-05-26 04:00

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv:2605.23975v1 Announce Type: new Abstract: Audio large language models (Audio LLMs) exhibit systematic failures in transcribing code-switching speech despite strong multilingual capabilities. Focusing on English-Mandarin, we identify three failure modes: language omission, t…

COVERAGE [1]

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

RELATED ENTITIES

RELATED TOPICS