研究人员提出了一项新研究,探讨了文本到语音(TTS)系统中情感控制的几何特性。该研究将语音语言模型(SLM)和条件流匹配(CFM)模块作为语音合成中引导混合情感的载体。研究结果表明,SLM为情感提供了一个独特、低维度的子空间,具有良好的说话人-情感解耦性,而CFM模块由于说话人和情感表示的纠缠,跨说话人性能较弱。联合引导可以增强情感强度,但可能会降低比例控制和语音质量。 AI
影响 为开发更具可控性和细微差别的情感表达的语音合成系统提供了见解。
排序理由 该集群包含一篇在arXiv上发表的研究论文,详细介绍了关于文本到语音模型的新研究。[lever_c_demoted from research: ic=1 ai=1.0]
- A Geometric Perspective on Composable Emotion Steering in Text-to-Speech Models
- alphaXiv
- arXiv
- CatalyzeX
- Conditional Flow Matching
- DagsHub
- Gotit.pub
- Hugging Face
- Local Intrinsic Dimensionality Based Features for Clustering
- ScienceCast
- Speech Language Model
- speech synthesis
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →