PulseAugur
实时 12:45:59
English(EN) GenTSE: Enhancing Target Speaker Extraction via a Coarse-to-Fine Generative Language Model

新的GenTSE模型通过生成语言方法改进说话人提取

研究人员开发了GenTSE,一种新颖的两阶段生成语言模型,旨在增强目标说话人提取(TSE)。该模型首先预测粗粒度语义令牌,然后将其精炼为细粒度声学令牌,这种分离提高了准确性和语音质量。GenTSE利用连续嵌入和冻结语言模型条件训练策略来减轻暴露偏差,在实验中表现优于以前基于语言模型的系统。 AI

影响 为改进说话人提取等语音处理任务引入了一种新方法。

排序理由 这是一篇详细介绍特定AI任务新模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Haoyang Li, Xuyi Zhuang, Azmat Adnan, Ye Ni, Wei Rao, Shreyas Gopal, Eng Siong Chng, Boon Siew Han, Yuanjin Zheng ·

    GenTSE:通过粗粒度到细粒度的生成式语言模型增强目标说话人提取

    arXiv:2512.20978v2 Announce Type: replace-cross Abstract: Language Model (LM)-based generative modeling has emerged as a promising direction for TSE, offering potential for improved generalization and high-fidelity speech. We propose GenTSE, a two-stage decoder-only generative LM…