English(EN) GenTSE: Enhancing Target Speaker Extraction via a Coarse-to-Fine Generative Language Model

新的GenTSE模型通过生成语言方法改进说话人提取

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了GenTSE，一种新颖的两阶段生成语言模型，旨在增强目标说话人提取（TSE）。该模型首先预测粗粒度语义令牌，然后将其精炼为细粒度声学令牌，这种分离提高了准确性和语音质量。GenTSE利用连续嵌入和冻结语言模型条件训练策略来减轻暴露偏差，在实验中表现优于以前基于语言模型的系统。 AI

影响为改进说话人提取等语音处理任务引入了一种新方法。

排序理由这是一篇详细介绍特定AI任务新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Haoyang Li, Xuyi Zhuang, Azmat Adnan, Ye Ni, Wei Rao, Shreyas Gopal, Eng Siong Chng, Boon Siew Han, Yuanjin Zheng · 2026-06-09 04:00

GenTSE：通过粗粒度到细粒度的生成式语言模型增强目标说话人提取

arXiv:2512.20978v2 Announce Type: replace-cross Abstract: Language Model (LM)-based generative modeling has emerged as a promising direction for TSE, offering potential for improved generalization and high-fidelity speech. We propose GenTSE, a two-stage decoder-only generative LM…