English(EN) HPRO: Hierarchical Progressive Reward Optimization via Preference Extraction for Emotional Text-to-Speech

新的HPRO框架增强了TTS模型的情感表现力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 16:35

研究人员推出了一种名为HPRO的分层渐进奖励优化框架，旨在提高基于大型语言模型的文本到语音（TTS）系统的情感表现力。该新框架解决了现有偏好驱动优化方法中存在的信息冲突和尺度差距问题。HPRO利用HD-Emo编解码器分离内容和情感偏好令牌，从而将情感优化与语义内容隔离开来，并缓解奖励攻击。该系统在帧、词和句子级别上渐进地对齐目标，从而在保持语言可懂度的同时增强情感表达。 AI

影响这项研究可能带来更具情感细微差别和更自然的人工智能生成语音，从而改善虚拟助手和音频内容创作等应用中的用户体验。

排序理由该集群包含一篇学术论文，详细介绍了一种改进文本到语音模型的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xiangmin Xu · 2026-06-26 16:35

HPRO：通过偏好提取实现情感文本到语音的层级渐进奖励优化

Recently, Large Language Model (LLM)-based Text-to-Speech (TTS) models have achieved remarkable naturalness. However, the standard Supervised Fine-Tuning paradigm often converges to statistically averaged prosody, limiting emotional expressiveness. While preference-driven optimiz…

报道来源 [1]

HPRO：通过偏好提取实现情感文本到语音的层级渐进奖励优化

相关实体

相关话题