English(EN) Interleaved Speech Language Models Latently Work In Text

研究发现：语音语言模型会隐式转录口语

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-21 12:33

一篇新发表在arXiv上的研究论文探讨了交织式语音语言模型（SLMs）的内部工作机制。研究表明，即使这些模型没有经过显式的语音识别训练，也会经历一个隐式的转录阶段。在此阶段，中间层可以解码口语的文本表示，转录文本在相当一部分数据中作为首选候选。随后，模型在文本域中预测下一个词，之后可能返回到语音域，这揭示了SLMs内部语音和文本模态的交互方式，并可能指导未来的优化。 AI

影响深入了解语音语言模型的内部机制，可能指导未来的优化。

排序理由发表在arXiv上的研究论文，详细介绍了语音语言模型的内部机制。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Yossi Adi · 2026-06-21 12:33

交错语音语言模型在文本中潜在工作

Speech language models (SLMs) have been extensively studied, with the common paradigm incorporating text data and pre-trained text LMs. A leading approach is speech-text interleaving in which models are trained over sequences containing both speech and text tokens, aiming to boos…

报道来源 [1]

交错语音语言模型在文本中潜在工作

相关实体

相关话题