PulseAugur
实时 13:29:02
English(EN) Cross-modal Consistency Guidance for Robust Emotion Control in Auto-Regressive TTS Models

新的TTS方法将情感控制准确率提高了12%

研究人员开发了一种名为跨模态一致性引导无分类器引导(CCG-CFG)的新方法,以改进自回归文本到语音(TTS)模型中的情感控制。该技术根据文本情感和期望语音情感之间的冲突动态调整引导尺度,从而增强情感一致性。当应用于CosyVoice2模型时,这种方法在情感识别准确率和主观质量得分方面取得了显著改进,优于HierSpeech++和Qwen3-TTS等现有方法。 AI

影响 增强了TTS的表达力和准确性,可能导致AI生成语音更加自然和富有情感。

排序理由 该集群包含一篇详细介绍TTS情感控制新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yizhou Peng, Yukun Ma, Chong Zhang, Yi-Wen Chao, Chongjia Ni, Bin Ma, Eng Siong Chng ·

    Cross-modal Consistency Guidance for Robust Emotion Control in Auto-Regressive TTS Models

    arXiv:2510.13293v4 Announce Type: replace Abstract: While Text-to-Speech (TTS) systems enable emotional control via natural-language instructions, expressiveness, naturalness, and speech quality degrade when the target emotion conflicts with the textual semantics. We propose a Cr…