New GenTSE model improves speaker extraction with generative language approach

By PulseAugur Editorial · [1 sources] · 2026-06-09 04:00

Researchers have developed GenTSE, a novel two-stage generative language model designed to enhance target speaker extraction (TSE). This model first predicts coarse semantic tokens and then refines them into fine acoustic tokens, a separation that improves accuracy and speech quality. GenTSE utilizes continuous embeddings and a Frozen-LM Conditioning training strategy to mitigate exposure bias, outperforming previous language model-based systems in experiments. AI

IMPACT Introduces a new method for improving speech processing tasks like speaker extraction.

RANK_REASON This is a research paper detailing a new model for a specific AI task. [lever_c_demoted from research: ic=1 ai=1.0]

Read on arXiv cs.AI →

Haoyang Li

paper
other

AI-generated summary · Google Gemini · from 1 sources. How we write summaries →

COVERAGE [1]

arXiv cs.AI TIER_1 English(EN) · Haoyang Li, Xuyi Zhuang, Azmat Adnan, Ye Ni, Wei Rao, Shreyas Gopal, Eng Siong Chng, Boon Siew Han, Yuanjin Zheng · 2026-06-09 04:00

GenTSE: Enhancing Target Speaker Extraction via a Coarse-to-Fine Generative Language Model

arXiv:2512.20978v2 Announce Type: replace-cross Abstract: Language Model (LM)-based generative modeling has emerged as a promising direction for TSE, offering potential for improved generalization and high-fidelity speech. We propose GenTSE, a two-stage decoder-only generative LM…

COVERAGE [1]

GenTSE: Enhancing Target Speaker Extraction via a Coarse-to-Fine Generative Language Model

RELATED ENTITIES

RELATED TOPICS