English(EN) Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

DPO改进音频大语言模型中的代码转换语音识别

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了一种新的方法，使用直接偏好优化（DPO）来改进音频大语言模型处理英语和普通话之间代码转换语音的能力。模型经常因遗漏语言、翻译而非转录或虚构内容而失败。通过在100,000个偏好对上进行训练，模型学会了保留混合语言内容，显著减少了转录错误。 AI

影响提高了大语言模型中多语言语音识别的准确性，可能改善全球可访问性和可用性。

排序理由学术论文，详细介绍了一种改进大语言模型在特定任务上性能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Trung Nguyen Quang, Cheng Yi Lewis Won, Minh Duc Pham, Yingxu He, Shuo Sun, Ai Ti Aw · 2026-05-26 04:00

面向音频大模型中英夹杂语音识别的直接偏好优化

arXiv:2605.23975v1 Announce Type: new Abstract: Audio large language models (Audio LLMs) exhibit systematic failures in transcribing code-switching speech despite strong multilingual capabilities. Focusing on English-Mandarin, we identify three failure modes: language omission, t…