English(EN) HPRO: Hierarchical Progressive Reward Optimization via Preference Extraction for Emotional Text-to-Speech

新的HPRO框架增强了基于LLM的TTS的情感表现力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-26 16:35

研究人员开发了HPRO，一个旨在提高基于大型语言模型（LLM）的文本到语音（TTS）系统情感表现力的新框架。HPRO通过引入HD-Emo编解码器解决了当前方法的信息冲突和尺度差距等局限性。该编解码器将内容和情感偏好令牌分开，从而在不损害语义含义的情况下独立优化情感表达。该框架在不同级别（帧、词、句）上逐步对齐目标，以增强情感范围并保持可懂度。 AI

影响这项研究可能带来更具情感细微差别和更自然的人工智能生成语音，从而改善虚拟助手和内容创作等应用中的用户体验。

排序理由该集群包含一篇详细介绍文本到语音合成新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Sihang Nie, Xiaofen Xing, Rui Xing, Haoming Li, Ruitong Xiao, Jingyuan Xing, Baiji Liu, Xiangmin Xu · 2026-06-29 04:00

HPRO: Hierarchical Progressive Reward Optimization via Preference Extraction for Emotional Text-to-Speech

arXiv:2606.28249v1 Announce Type: cross Abstract: Recently, Large Language Model (LLM)-based Text-to-Speech (TTS) models have achieved remarkable naturalness. However, the standard Supervised Fine-Tuning paradigm often converges to statistically averaged prosody, limiting emotion…
arXiv cs.CL TIER_1 English(EN) · Xiangmin Xu · 2026-06-26 16:35

HPRO：通过偏好提取实现情感文本到语音的层级渐进奖励优化

Recently, Large Language Model (LLM)-based Text-to-Speech (TTS) models have achieved remarkable naturalness. However, the standard Supervised Fine-Tuning paradigm often converges to statistically averaged prosody, limiting emotional expressiveness. While preference-driven optimiz…

报道来源 [2]

HPRO: Hierarchical Progressive Reward Optimization via Preference Extraction for Emotional Text-to-Speech

HPRO：通过偏好提取实现情感文本到语音的层级渐进奖励优化

相关实体

相关话题