PulseAugur
实时 16:37:38
English(EN) Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

DPO改进音频大语言模型中的代码转换语音识别

研究人员开发了一种新的方法,使用直接偏好优化(DPO)来改进音频大语言模型处理英语和普通话之间代码转换语音的能力。模型经常因遗漏语言、翻译而非转录或虚构内容而失败。通过在100,000个偏好对上进行训练,模型学会了保留混合语言内容,显著减少了转录错误。 AI

影响 提高了大语言模型中多语言语音识别的准确性,可能改善全球可访问性和可用性。

排序理由 学术论文,详细介绍了一种改进大语言模型在特定任务上性能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Trung Nguyen Quang, Cheng Yi Lewis Won, Minh Duc Pham, Yingxu He, Shuo Sun, Ai Ti Aw ·

    面向音频大模型中英夹杂语音识别的直接偏好优化

    arXiv:2605.23975v1 Announce Type: new Abstract: Audio large language models (Audio LLMs) exhibit systematic failures in transcribing code-switching speech despite strong multilingual capabilities. Focusing on English-Mandarin, we identify three failure modes: language omission, t…