研究人员开发了一种名为跨模态一致性引导无分类器引导(CCG-CFG)的新方法,以改进自回归文本到语音(TTS)模型中的情感控制。该技术根据文本情感和期望语音情感之间的冲突动态调整引导尺度,从而增强情感一致性。当应用于CosyVoice2模型时,这种方法在情感识别准确率和主观质量得分方面取得了显著改进,优于HierSpeech++和Qwen3-TTS等现有方法。 AI
影响 增强了TTS的表达力和准确性,可能导致AI生成语音更加自然和富有情感。
排序理由 该集群包含一篇详细介绍TTS情感控制新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- CosyVoice2
- Cross-modal Consistency Guided Classifier-Free Guidance
- HierSpeech++
- Qwen3-TTS
- Yizhou Peng
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →